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第 一 章 前 言 


1.1 本 门 课 的 学 习 目 的 和 学 习 内 容 





























本 门 课 的 目的 主要 是 通过 学 习 一 些 生物 信息 学 相关 的 算法 ， 通 过 将 这 些 算法 用 C 语言 
程序 实现 ， 提 高 自己 的 编程 能 力 和 对 算法 的 理解 能 力 , 还 有 将 部 分 已 有 的 算法 在 Linux 系统 
上 进行 编译 实现 ， 提 高 自己 对 已 有 源 程序 算法 的 理解 能 力 。 








































































































因此 ， 本 门 课 主要 分 三 个 部 分 : 




















第 一 部 分 ， 主 要 学 习 一 些 简单 的 数值 算法 ， 将 这 些 算法 利用 C 语言 编制 成 程序 ， 熟 悉 
C 语言 的 编程 ， 提 高 自己 的 编程 能 力 ， 在 此 基础 上 ， 形 成 一 个 自己 的 C 语言 的 矩阵 运算 库 。 

第 二 章 是 牛顿 迁 代 法 求 方程 的 根 ， 在 这 一 章 里 ， 通 过 对 儿 种 方程 根 的 求解 方法 ， 掌 握 
牛顿 迁 代 法 ， 并 将 牛顿 迁 代 法 形成 程序 ， 这 一 章程 序 比较 简单 ， 通 过 学 习 ， 热 悉 C 程序 设 
让 






























































































































































第 三 章 主 要 是 方程 组 的 求解 方法 ， 也 是 对 其 中 一 种 方法 进行 程序 设计 ， 提 高 自己 的 编 











第 四 章 是 在 第 三 章 基 础 上 进行 矩阵 求 拟 算法 的 编程 ， 从 这 一 章 开 始 ， 逐 步 形成 自己 的 
算 库 ， 包 括 和 矩阵 转 置 、 抢 阵 相 乘 、 矩 阵 求 拟 、 和 矩阵 SVD 分 解 等 ， 为 以 后 的 算法 编程 

































































以 上 主要 是 第 一 部 分 的 内 容 ， 这 部 分 的 学 习 目 的 是 熟悉 和 提高 C 语言 编程 能 力 ， 形 成 
和 矩阵 运算 库 ， 为 以 后 的 算法 编程 打下 基础 。 

第 二 部 分 主要 对 一 些 常用 的 生物 信息 学 算法 进行 编程 ， 主 要 有 下 面 几 个 程序 构成 。 

第 五 章 主 要 是 最 小 二 乘 曲线 拟 合 的 学 习 ， 并 且 利 用 前 面 形 成 的 矩阵 算法 库 ， 编 制 最 小 
乘 曲线 拟 合 的 C 语言 程序 。 

第 六 章 主要 是 一 些 分 类 算法 的 学 习 ， 掌 握 模式 识别 和 PLS 方法 ， 我 们 上 面 的 矩阵 库 
的 SVD 分解 在 这 里 进行 学 习 和 编程 。 对 模式 识别 和 PLS 分 类 要 形成 程序 ， 对 一 些 生物 信息 
的 数据 进行 处 理 。 

第 七 章 是 优化 算法 的 学 习 ， 在 这 一 章 中 对 遗传 算法 进行 编程 ， 掌 握 遗 传 算法 的 原理 和 
应 用 , 优化 算法 在 生物 信息 学 中 有 很 大 的 应 用 , 在 这 一 章 中 我 们 首先 对 一 套 简 单 的 数据 进行 
处 理 ， 在 下 一 章 中 会 有 一 个 很 好 的 应 用 举例 。 
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主要 通过 





F 且 提高 自己 的 编程 能 力 ， 这 部 分 的 和 





些 算法 的 学 习 ， 





握 这 些 算 法 的 原理 和 在 生物 信息 学 上 的 应 用 
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识别 


过 这 部 分 的 学 习 会 对 自己 的 编 











要 是 几 


别人 编写 的 程序 的 安装 和 使 























个 复杂 的 














序 比较 复杂 , 编 起 来 需要 掌握 更 多 的 计算 机 知识 ,但 
程 有 很 大 的 提高 。 











息 学 算法 





























,是 无 法 编写 的 ， 我 们 通过 对 




































































FE 要 是 计算 机 辅 


AutoDock3.05 在 Linux 上 的 安装 和 计算 ， 
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时 序 的 编译 和 使 用 。 






























































j， 提 高 自己 利用 已 有 
助 药物 设计 的 学 习 ， 我 


证 


掌握 分 子 对 接 算法 的 原理 和 应 用 ， 掌 握 在 Linux 








可 夫 模 型 算法 ， 通 过 对 算法 的 介绍 ， 学 习 这 种 算法 的 原理 以 及 在 基因 














1.2 主要 生物 信息 学 数据 库 介 绍 


NRL3D, TrEMBL 等 ， 


库 有 PDB, NDB, BioMagResBank, CCSD 等 ， 
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程序 的 能 力 ， 并 且 要 掌握 这 些 算 法 。 


























门 通过 将 一 个 计算 机 辅助 药物 设计 程序 






































Fh 已 有 的 程序 的 安装 和 使 用 ， 计 算 一 组 基因 上 的 数据 。 





数据 库 是 生物 信息 学 的 主要 内 容 , 各 种 数据 库 几乎 覆盖 了 生命 科学 的 各 个 领域 。 核酸 序 


列 数据 库 有 GenBank, EMBL, DDB 等 ， 


白质 序列 数据 库 有 SWISS-PROT PIR, OWL， 


与 蛋白 














质 片段 数据 库 有 PROSITE, BLOCKS, PRINTS 等 ， 三 维 结构 数据 























FSSP, 3D-ALL DSSP 等 ， 


数据 
数据 














提供 








刁 荃 


库 有 Medline, Uncover 等 。 男 外 一 些 公 司 还 用 
库 履 盖 面 广 ， 分 布 分 散 且 格式 不 统一 ， 因 


综合 服务 , 如 EBI 的 SRS(Sequence Retrieval System 包含 了 核酸 序列 库 、 和 蛋白 质 序列 库 ， 





-本 点 




















质 结 构 有 关 的 数据 库 还 有 SCOP, CATHL 














组 有 关 的 数据 库 还 有 ESTdb, OMIM, GDB, GSDB 等 ， 文 献 

















F 发 了 商业 数据 库 , 如 MDL 等。 生物 信息 学 











此 一 些 生物 计算 中 心 将 多 个 数据 库 整 合 在 一 起 


























三 维 结构 库 等 30 多 个 数据 库 及 CLUSTALW、PROSITESEARCH 等 强 有 力 的 搜索 工具 ， 用 





户 可 以 进行 多 个 数据 库 的 多 利 
基因 和 基因 组 数据 库 

1. Genbank 库 包 含 了 所 有 已 知 的 核酸 序列 和 
学 注释 。 E 物 技术 信息 


序 工作 者 提交 的 序列 ， 由 讽 




















国 国立 4 




















查询。 


aE 
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白质 序列 , 以 及 与 它们 相关 的 文献 著作 和 生物 
心 NCBD 建 立 和 维护 的 。 它 的 数据 直接 来 源 于 测 














序 ， 








心 提交 的 大 量 EST 序列 和 其 它 测序 数据 ， 以 及 与 其 它 数 据 


























机 构 协 作 交 换 数 据 而 来 。Genbank 每 天 都 会 与 欧洲 分 子 生物 学 实验 室 (EMBL) 的 数据 库 ， 和 
日 本 的 DNA 数据 库 (DDBJ) 交 换 数据 ， 使 这 三 个 数据 库 的 数据 同步 。Genbank 的 数据 可 以 从 








章 前 


ne 


爆 
ml 








NCBI 的 FTP 服务 器 上 免费 下 载 完 整 的 库 ， 或 下 载 积累 的 新 数据 。NCBI 还 提供 广泛 的 数据 
查询 、 序 列 相似 性 搜索 以 及 其 它 分 析 服 务 ， 用 户 可 以 从 NCBI 的 主页 上 找到 这 些 服务 。 
Genbank 库 里 的 数据 按 来 源 于 约 55,000 个 物种 ， 其 中 56% 是 人 类 的 基因 组 序列 (所 有 序 














te 


























列 中 的 34% 是 人 类 的 EST 序列 )。 每 条 Genbank 数据 记录 包含 了 对 序列 的 简要 描述 ， 它 的 科 








学 命名 ， 物 种 分 类 名 称 ， 参 考 文献 ， 序 列 特征 表 ， 以 及 序列 本 身 。 序 列 特征 表 里 包 含 对 序列 

















生物 学 特征 注释 如 ; 编码 区 、 转 录 单 元 、 
被 划分 在 若干 个 文件 
序数 据 、 大 规模 基因 组 序列 数据 等 16 类 ， 
(1)Genbank 数据 检索 


















































NCBI 的 数据 库 检 索 查 询 系统 是 Entrez。Entrez 是 基于 Web 界面 的 综合 生物 信息 数据 库 











重复 区 域 、 突 变 位 点 或 修饰 位 点 等 。 所 有 数据 记录 
， 如 细菌 类 、 病 毒 类 、 灵 长 类 、 吵 齿 类 ， 以 及 EST 数据 、 基 因 组 测 
其 


kt 中 EST 数据 等 又 被 各 自分 成 若干 个 文件 。 





























检索 系统 。 利 用 Entrez 系统 ， 用 户 不 仅 可 以 方便 地 检索 Genbank 的 核酸 数据 ， 还 可 以 检索 

来 自 Genbank 和 其 它 库 的 蛋白 质 序列 数据 、 基 因 组 图 谱 数 据 、 来 自分 子 模型 数据 库 (MMDB) 

的 蛋白 质 三 维 结构 数据 、 种 群 序列 数据 集 、 以 及 由 PubMed 获得 Medline 的 文献 数据 。 
Entrez 提供 了 方便 实用 的 检索 服务 ， 所 有 操作 都 可 以 在 网 络 浏览 器 上 完成 。 用 户 可 以 利 










































































用 Entrez 界面 上 提供 的 限制 条 件 (Limits)、 索 引 (Index)、 检 索 历史 (History) 和 剪贴 板 (Clipboard) 

















等 功能 来 实现 复杂 的 检索 查询 工作 。 对 于 检索 获得 的 记录 ， 用 户 可 以 选择 需要 显示 的 数据 ， 
































保存 查询 结果 ， 甚 至 以 图 形 方式 观看 检索 获得 的 序列 。 更 详细 


主页 上 获得 。 


(2) 向 Genbank 提交 序列 数据 




















的 Entrez 使 用 说 明 可 以 在 该 


测序 工作 者 可 以 把 自己 工作 中 获得 的 新 序列 提交 给 NCBI， 添 加 到 Genbank 数据 库 。 这 
个 任务 可 以 由 基于 Web 界面 的 Banklt 或 独立 程序 Sequin 来 完成 。BankIt 是 一 系列 表单 ， 包 
括 联络 信息 、 发 布 要 求 、 引 用 参考 信息 、 序 列 来 源 信息 、 以 及 序列 本 身 的 信息 等 。 用 户 提交 















































序列 后 ,会 从 电子 邮件 收 至 


== 









































动 生 成 的 数据 条 目 ，Genbank 的 新 








这 列 编号 ， 以 及 完成 注释 后 








的 完整 的 数据 记录 。 用 户 还 可 以 在 Banklt 页 面 下 修改 已 经 发 布 序列 的 信息 。Banklt 适合 于 
独立 测序 工作 者 提交 少量 序列 ， 而 不 适合 大 量 序列 的 提交 ， 也 不 适合 提交 很 长 的 序列 ，EST 
序列 和 GSS 序列 也 不 应 用 Bankit 提交 。Banklt 使 用 说 明和 对 序列 的 要 求 可 详 见 其 主页 面 。 

大 量 的 序列 提交 可 以 由 Sequin 程序 完成 。Sequin 程序 能 方便 的 编辑 和 处 理 复杂 注释 ， 




























































































包含 一 系列 内 建 的 检查 函数 来 提高 序列 的 质量 保证 。 它 还 被 设计 用 于 提交 来 自 系统 进化 、 

















种 群 和 突变 研究 的 序列 ， 可 以 加 入 比 对 的 数据 。Sequin 除了 用 于 编辑 和 修改 序列 数据 记录 ， 
还 可 以 用 于 序列 的 分 析 , 任何 以 FASTA 或 ASN.1 格式 序列 为 输入 数据 的 序列 分 析 程 序 都 可 
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ne 


人 
翘 
ml 








以 整合 到 Sequin 程序 下 。 在 不 同 操作 系统 下 运行 的 Sequin 程序 都 可 以 在 


ftp:/ncbinlm.nih.gov/sequin/ 下 找到 ，Sequin 的 使 用 说 明 可 详 见 其 网 页 。 








NCBI 的 网 址 是 : http:/www.ncbinlm.nih.gov。 








Entrez 的 网 址 是 : http:/www.ncbi.nlm.nih.gov/entrez/。 





Banktt 的 网 址 是 : http:/www.ncbinlm.nih.govBankI 


to 





Sequin 的 相关 网 址 是 : http:/www.ncbi.nlm.nih.gov/Sequin/。 





2. EMBL 核酸 序列 数据 库 
EMBL 核酸 序列 数据 库 由 欧洲 生物 信息 学 研究 



































所 (EBD 维护 的 核酸 序列 数据 构成 ， 由 于 





与 Genbank 和 DDBJ 的 数据 合作 交换 , 它 也 是 一 个 全 面 的 核酸 序列 数据 库 。 该 数据 库 由 Oracal 
数据 库 系 统管 理 维护 ， 查 询 检索 可 以 通过 通过 因特网 上 的 序列 提取 系统 (SRS) 服 务 完成 。 向 














EMBL 核酸 序列 数据 库 提交 序列 可 以 通过 基于 Web 


数据 库 网 址 是 : http:/www.ebi.ac.uk/embl/。 

















SRS 的 网 址 是 : http://srs.ebi.ac.uk/。 
































的 WEBIN 工具 ， 也 可 以 用 Sequin 软件 


WEBIN 的 网 址 是 : http:/www.ebi.ac.uk/embl/Submission/webin.html。 





3. DDBJ 数据 库 
































酸 库 合 作 交 换 数据 。 可 以 使 用 其 主页 上 提供 的 SRS 
Sequin 软件 向 该 数据 库 提交 序列 。 


DDBJ 的 网 址 是 : http:/www.ddbj.nig.ac.jp/。 

















4. GDB 









































日 本 DNA 数据 仓库 (DDBJ) 也 是 一 个 全 面 的 核酸 序列 数据 库 ， 与 Genbank 和 EMBL 核 


工具 进行 数据 检索 和 序列 分 析 。 可 以 用 

















基因 组 数据 库 (GDB) 为 人 类 基因 组 计划 (HGP) 保 存 和 处 理 基因 组 图 谱 数据 .GDB 的 目标 











是 构建 关于 人 类 基因 组 的 百科 全 书 , 除了 构建 基因 组 图 谱 之 外 , 还 开发 了 描述 序列 水 平 的 基 



























































因 组 内 容 的 方法 ， 包 括 序列 变异 和 其 它 对 功能 和 表 型 的 描述 。 目 前 GDB 中 有 : 人 类 基因 组 












































markers、 易 碎 位 点 fragile sites、EST 序列 、 综 合 区 域 


人 类 基因 组 图 谱 ( 包 括 细 胞 遗传 图 谱 、 连 接 图 谱 、 放 





















































区 域 (包括 基因 、 克 隆 、amplimers PCR 标记 、 断 点 breakpoints、 细 胞 遗传 标记 cytogenetic 





复 序列 ); 


射 性 杂交 图 谱 、content contig 图 谱 和 综 


syndromic regions、contigs 和 




















合 图 谱 等 ); 人 类 基因 组 内 的 变异 (包括 突变 和 多 态 怕 


库 以 对 象 模型 来 保存 数据 ， 提 供 基于 Web 的 数据 对 




















对 象 ， 并 以 图 形 方式 观看 基因 组 图 谱 。 


E， 加 上 等 位 基因 频率 数据 )。GDB 数据 
| 象 检索 服务 ， 用 户 可 以 搜索 各 种 类 型 的 























GDB 的 网 址 是 :http:/www.gdb.org。 





GDB 的 国内 镜像 是 : http://gdb.pku.edu.cn/gdb/。 
蛋白 质数 据 库 
1. PIR 和 PSD 

PIR 国际 和 蛋白质 序 列 数据 库 (PSD) 是 由 和 蛋白质 信 息 资源 (PIR)、 莫 尼 黑 蛋白质 序 列 信 息 中 
心 (MIPS) 和 日 本 国际 蛋白 质 序列 数据 库 (JIPID) 共 同 维护 的 国际 上 最 大 的 公共 蛋白质 序 列 数 
据 库 。 这 是 一 个 全 面 的 、 经 过 注释 的 、 非 兄 余 的 蛋白 质 序 列 数据 库 ， 其 中 包括 来 自 几 十 个 完 
整 基因 组 的 和 蛋白质 序列 。 所 有 序列 数据 都 经 过 整理 ， 超 过 99% 的 序列 已 按 蛋 白质 家 族 分 类 ， 
一 半 以 上 还 按 蛋 白质 超 家 族 进 行 了 分 类 。PSD 的 注释 中 还 包括 对 许多 序列 、 结 构 、 基 因 组 
和 文献 数据 库 的 交叉 索引 ,以 及 数据 库 内 部 条 目 之 间 的 索引 , 这 些 内 部 索引 帮助 用 户 在 包括 
复合 物 、 酶 一 底 物 相互 作用 、 活 化 和 调控 级 联 和 具有 共同 特征 的 条 目 之 间 方 便 的 检索 。 每 季 
度 都 发 行 一 次 完整 的 数据 库 ， 每 周 可 以 得 到 更 新 部 分 。 

PSD 数据 库 有 儿 个 辅助 数据 库 ， 如 基于 超 家 族 的 非 见 余 库 等 。PIR 提供 三 类 序列 搜索 服 
务 : 基于 文本 的 交互 式 检 索 ; 标准 的 序列 相似 性 搜索 ， 包 括 BLAST、FASTA 等 ; 结合 序列 
相似 性 、 注 释 信息 和 和 蛋白质 家 族 信息 的 高 级 搜索 ,包括 按 注 释 分 类 的 相似 性 搜索 、 结 构 域 搜 


索 GeneFIND 等 。 





































































































































































































PIR 和 了 PSD 的 网 址 是 : http://pir.georgetown.edu/。 





数据 库 下 载 地 址 是 : ftp://nbrfa.georgetown.edu/pir/。 





2.SWISS-PROT 

SWISS-PROT 是 经 过 注释 的 蛋白 质 序列 数据 库 ， 由 欧洲 生物 信息 学 研究 所 (EBD 维护 。 
数据 库 由 蛋白 质 序列 条 目 构成 ， 每 个 条 目 包 含 蛋白 质 序列 、 引 用 文献 信息 、 分 类 学 信息 、 注 
释 等 ， 注 释 中 包括 蛋白 质 的 功能 、 转 录 后 修饰 、 特 殊 位 点 和 区 域 、 二 级 结构 、 四 级 结构 、 与 
其 它 序列 的 相似 性 、 序 列 残缺 与 疾病 的 关系 、 序 列 变异 体 和 冲突 等 信息 。SWISS-PROT 中 
尽 可 能 减少 了 元 余 序 列 ， 并 与 其 它 30 多 个 数据 建立 了 交叉 引用 ， 其 中 包括 核酸 序列 库 、 蛋 
白质 序列 库 和 蛋白质 结构 库 等 。 

利用 序列 提取 系统 (SRS) 可 以 方便 地 检索 SWISS-PROT 和 其 它 EBI 的 数据 库 。 
SWISS-PROT 只 接受 直接 测序 获得 的 蛋白 质 序 列 ， 序 列 提交 可 以 在 其 Web 页 面 上 完成 。 


























































































































or 












































SWISS-PROT 的 网 址 是 : http:/www.ebi.ac.uk/swissprot/。 


3. PROSITE 





PROSITE 数据 库 收 集 了 生物 学 有 显著 意义 的 























所 
= 





质 位 点 和 序列 模式 ， 并 能 根据 这 些 位 





点 和 模式 快速 和 可 靠 地 鉴别 一 个 未 知 功能 的 蛋白 质 序列 应 该 属于 哪 一 个 蛋白 质 家 族 。 有 的 情 


况 下 ,， 某 个 蛋白 质 与 已 知 功 


| 
能 蛋 








白质 的 整体 序列 相似 性 很 低 ， 

















但 由 于 功能 的 需要 保留 了 与 功 

















能 密切 相关 的 序列 模式 ， 这 样 就 可 能 通过 PROSITE 的 搜索 找到 隐 含 的 功能 motif， 
涉及 的 序列 模式 包括 酶 的 催化 位 点 、 配 体 
肛 氨 酸 、 与 小 分 子 或 其 它 和 蛋白 质 结合 的 区 域 等 , 除了 序列 模 
j 比 对 构建 的 profile， 能 更 敏感 地 发 现 序列 与 profile 的 相 


列 分 析 的 有 效 工 具 。PROSITE ! 
合 的 残 基 、 二 硫 键 的 半 
由 多 


似 性 。PROSITE 的 主页 上 提供 





























属 离 子 结 





式 之 外 ，PROSITE 还 包括 
































序 用 
各 种 相关 检索 服务 。 











PROSITE 的 网 址 是 : http://www.expasy.ch/prosite/。 





4. PDB 


蛋白 质数 据 仓 库 (PDB) 是 


























玉 | 























际 上 唯一 的 生物 大 分 子 结构 数据 档案 库 ， 
国家 实验 室 建立 。PDB 收集 的 数据 来 源 于 X 光 蝇 
里 和 确认 后 存档 而 成 。 目 前 PDB 数据 库 的 维护 由 结构 生物 信 ， 


体 衍 射 和 核磁 共 





因此 是 序 
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Se. 





EE 
结合 


位 点 、 与 














由 美国 Brookhaven 
(NMR) 的 数据 ， 经 过 整 


息 学 研究 合作 组 织 (RCSB) 负 责 。 


























RCSB 的 主 服 务 器 和 世界 各 地 的 镜像 服务 器 提供 数据 库 的 检索 和 下 载 服务 ， 以 及 关于 PDB 








数据 文件 格式 和 其 它 文档 的 说 明 ，PDB 数据 还 可 以 从 发 行 的 光盘 获得 。 使 








可 以 在 计算 机 上 按 PDB 文件 显示 生物 大 分 子 的 三 维 结构 。 








RCSB 的 PDB 数据 库 网 址 是 : 





S. SCOP 


白质 结 


蛋 


























个 大 类 





构 分 类 (SCOP) 数 据 库 详细 
二 层次 : 家族， 描述 相近 的 进化 关系 ， i 
空间 儿 何 结构 的 关系 ; 折 车 类 ， 所 有 折 车 子 被 归于 
。SCOP 还 提供 一 个 非 见 余 的 ASTRAIL 序列 库 ， 这 个 库 通常 被 用 来 评估 各 种 序列 比 


http://www.resb.org/pdb/。 
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o、 全 





























j Rasmol 等 软件 























述 了 已 知 的 蛋白 质 结构 之 间 的 关系 。 分 类 基于 若 
国家 族 ， 描 述 远 源 的 进化 关系 ; 折 和 王子 (fold)， 描 述 


B、wB、a 十 B 和 多 结构 域 等 几 








对 算法 。 此 外 ，SCOP 还 提供 一 个 PDB-ISL 中 介 序 列 库 ， 通 过 与 这 个 库 中 序列 的 两 两 比 对 ， 
可 以 找到 与 未 知 结构 序列 远 缘 的 已 知 结构 序列 。 


SCOP 的 网 址 是 : http:/scop.mrc-lmb.cam.ac.Uk/scop/。 




















6. COG 





蛋 





蛋白 质 直 系 同 源 秘 (COGs) 数 据 库 是 对 细 茵 
白 ， 根 据 系统 进化 关系 分 类 构建 而 成 。COG 库 对 于 预测 单 

















、 车 类 和 真 核 











生物 的 21 个 完整 基因 组 的 编码 



































组 中 人 蛋白 质 的 功能 都 很 有 








下 将 


个 蛋白 质 的 功能 和 整个 新 基因 


























利用 COGNITOR 程序 ， 可 以 # 








巴 茶 个 蛋白 质 与 所 有 COGs 中 的 


宣 























蛋白 质 进 行 比 对 ， 并 把 它 归 入 适当 的 COG 徐 。COG 库 提供 了 对 COG 分 类 数据 的 检索 和 查 
询 ， 基 于 Web 的 COGNITOR 服务 ， 系 统 进 化 模式 的 查询 服务 等 。 





























COG 库 的 网 址 是 : http:/www.ncbi.nlm.nih.gov/COG.。 











下 载 COG 库 和 COGNITOR 程序 在 : ftp://ncbi.nlm.nih.gov/pub/COG。 
功能 数据 库 
1. KEGG 

京都 基因 和 基因 组 百科 全 书 (KEGG) 是 系统 分 析 基 因 功 能 ， 联 系 基因 组 信息 和 功能 信息 
的 知识 库 。 基 因 组 信息 存储 在 GENES 数据 库 里 ， 包 括 完整 和 部 分 测序 的 基因 组 序列 ， 更 高 
级 的 功能 信息 存储 在 PATHWAY 数据 库 里 ， 包 括 图 解 的 细胞 生化 过 程 如 代谢 、 膜 转运 、 信 
号 传递 、 细 胞 周期 ， 还 包括 同系 保守 的 子 通路 等 信息 ; KEGG 的 男 一 个 数据 库 是 LIGAND， 
包含 关于 化 学 物质 、 酶 分 子 、 酶 反应 等 信息 。KEGG 提供 了 Java 的 图 形 工具 来 访问 基因 组 
图 谱 ， 比 较 基因 组 图 谱 和 操作 表达 图 谱 ， 以 及 其 它 序 列 比 较 、 图 形 比 较 和 通路 计算 的 工具 ， 
可 以 免费 获取 。 
KEGG 的 网 址 是 : http:/www.genome.ad.jp/kegg/。 
2. DIP 

相互 作用 的 蛋白 质数 据 库 (DIP) 收 集 了 由 实验 验证 的 蛋白 质 一 蛋白 质 相互 作用 。 数 据 库 
包括 蛋白 质 的 信息 、 相 互 作用 的 信息 和 检测 相互 作用 的 实验 技术 三 个 部 分 。 用 户 可 以 根据 蛋 
白质 、 生 物 物 种 、 蛋 白质 超 家 族 、 关 键 词 、 实 验 技术 或 引用 文献 来 查询 DIP 数据 库 。 


DIP 的 网 址 是 : http://dip.doe-mbi.ucla.edu/。 































































































































































































3. ASDB 

可 变 剪 接 数据 库 (ASDB) 包 括 蛋 白质 库 和 核酸 库 两 部 分 。ASDB( 蛋 和 白质) 部 分 来 源 于 
SWISS-PROT 蛋白 质 序列 库 ， 通 过 选取 有 可 变 剪 接 注释 的 序列 ， 搜 索 相 关 可 变 剪 接 的 序列 ， 
经 过 序列 比 对 、 筛 选 和 分 类 构建 而 成 。ASDB( 核 酸 ) 部 分 来 自 Genbank 中 提 及 和 注释 的 可 变 
剪接 的 完整 基因 构成 。 数 据 库 提 供 了 方便 的 搜索 服务 。 


ASDB 的 网 址 是 : http://cbcg.nersc.gov/asdb。 

































































4. TRRD 

转录 调控 区 数据 库 (TRRD) 是 在 不 断 积 累 的 真 核 生 物 基 因 调 控 区 结构 一 功能 特性 信息 基 
础 上 构建 的 。 每 一 个 TRRD 的 条 目 里 包含 特定 基因 各 种 结构 一 功能 特性 ， 转录 因子 结合 位 
点 、 启 动 子 、 增 强 子 、 静 默 子 、 以 及 基因 表达 调控 模式 等 。TRRD 包括 五 个 相关 的 数据 表 : 


TRRDGENES( 包 含 所 有 TRRD 库 基因 的 基本 信息 和 调控 单元 信息 ); TRRDSITES( 包 括 调 控 
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因子 结合 位 点 的 具体 信息 ); TRRDFACTORS( 包 括 TRRD 中 与 各 个 位 点 结合 的 调控 因子 的 具 
体 信 息 ); TRRDEXP( 包 括 对 基因 表达 模式 的 具体 描述 ); TRRDBIB( 包 括 所 有 注释 涉及 的 参 
考 文献 )。TRRD 主页 提供 了 对 这 几 个 数据 表 的 检索 服务 。 


TRRD 的 网 址 是 : http:/wwwmgs.bionetnsc.ru/mgs/dbases/trrd4/。 









































5. TRANSEFAC 


TRANSFAC 数据 库 是 关于 转录 因子 、 它 们 在 基因 组 上 的 结合 位 点 和 与 DNA 结合 的 























profiles 的 数据 库 。 由 Site、Gene、Factor、Class、Matrix、Cells、Method 和 Reference 等 数 
据 表 构 成 。 此 外 ， 还 有 几 个 与 TRANSFAC 密切 相关 的 扩展 库 : PATHODB 库 收集 了 可 能 导 
致 病态 的 突变 的 转录 因子 和 结合 位 点 ; SMART DB 收集 了 与 染色 体 结构 变化 相关 的 蛋白 因 
子 和 位 点 的 信息 ; TRANSPATH 库 用 于 描述 与 转录 因子 调控 相关 的 信号 传递 的 网 络 ; 
CYTOMER 库 表 现 了 人 类 转录 因子 在 各 个 器 官 、 细 胞 类 型 、 生 理 系 统 和 发 育 时 期 的 表达 状 
况 。TRANSFAC 及 其 相关 数据 库 可 以 免费 下 载 ， 也 可 以 通过 Web 进行 检索 和 查询 。 
TRANSFAC 的 网 址 是 : http:/www.gene-regulation.com/pub/databases.html。 
1. DBCat 

DBCat 是 生物 信息 数据 库 的 目录 数据 库 ， 它 收集 了 500 多 个 生物 信息 学 数据 库 的 信息 ， 
并 根据 它们 的 应 用 领域 进行 了 分 类 。 包 括 DNA、RNA、 蛋 白质 、 基 因 组 、 图 谱 、 和 蛋白 质 结 
构 、 文 献 著作 等 基本 类 型 。 数 据 库 可 以 免费 下 载 或 在 网 络 上 检索 查询 。 


DBCat 的 网 址 是 : http:/www.infobiogen.fr/services/dbcat/。 
















































































































































































下 载 DBCat 在 : ftp://ftp.infobiogen.fr/pub/db/dbcat。 





2. PubMed 
PubMed 是 NCBI 维护 的 文献 引用 数据 库 ， 提 供 对 MEDLINE、Pre-MEDLINE 等 文献 数 
据 库 的 引用 查询 和 对 大 量 网 络 科 学 类 电子 期 刊 的 链接 。 利 用 Entrez 系统 可 以 对 PubMed 进行 
方便 的 查询 检索 。 
PubMed 的 网 址 是 : http://www.ncbi.nlm.nih.gov/。 
除了 以 上 提 及 的 数据 之 外 , 还 有 许 许 多 多 的 专门 生物 信息 数据 库 , 涉及 了 目前 生物 学 研 
究 的 各 个 层面 和 领域 , 由 于 篇 幅 所 限 无 法 一 一 详 述 。 国内 也 有 一 些 大 数据 库 的 镜像 站 点 和 自 
己 开发 的 有 特色 的 数据 库 ， 如 欧洲 分 子 生 物 学 网 络 组 织 EMBNet 中 国 节 点 北京 大 学 分 子 生 
物 信息 镜像 系统 , 上 海 博 容 基因 公司 与 上 海 嘉 瑞 软 件 公 司 合作 开发 的 国产 汉化 基因 数据 库 及 
分 析 管 理 系统 ， 同 时 国家 级 的 生物 信息 学 中 心 也 在 筹建 之 中 。 
























































































































































第 二 章 牛顿 迭代 法 








第 二 章 牛顿 碗 代 法 


























本 章 主 要 是 讲 非 线性 方程 的 数值 解法 。 对 于 一 元 方程 ， 只 有 几 类 简单 情形 ， 例 如 低 次 


















































的 代数 方程 和 简单 的 超越 方程 , 我们 能 有 办 法 求 出 其 准确 解 ， 至 于 一 般 情形 , 已 不 存在 通常 
获得 具有 一 定 准确 度 的 
近似 根 就 可 以 了 ， 因 此 ， 本 章 主要 介绍 了 在 实际 中 计算 机 上 求解 方程 的 近似 根 的 几 个 方法 。 


























的 求 根 公 式 , 或 者 求 准 确 解 的 方法 。 由 于 实际 应 用 中 ,往往 只 需要 能 












































































































































其 中 ， 和 牛顿 迭代 法 是 应 用 范围 最 广 的 一 种 方法 之 一 ， 在 本 章 中 主要 i 























章 要 求 将 牛顿 人 代 法 编制 成 程序 来 解决 一 个 实际 问题 。 














2.1 闭 区 间 套 法 (二 分 法 ) 


2.1.1 根 的 隔离 

















解 这 利 





方法 。 同 时， 本 


我 们 所 要 介绍 的 求 方程 f(x) = 0 的 近似 根 的 方法 ， 都 是 基于 已 知 方程 f(x) = 0 在 一 个 




















E 要 


有 有 


第 定 根 的 大 概 位 置 














区 间 (a,b) 内 恰好 有 一 个 根 。 为 些 ， 求 方程 f(x) = 0 的 根 时 ， 总 是 








也 就 是 要 确定 出 一 个 区 间 (a,5)， 使 (a,5) 内 恰好 只 有 了 (x) = 0 的 一 个 根 。 这 伯 





















































F 工 作 ， 称 为 


“ 根 的 隔离 ”确定 的 有 根 区 间 (a,25) 往往 比较 大 ， 将 有 根 区 间 逐 步 缩小 的 方法 就 是 财 区 间 
































套 法 〈 即 二 分 法 )。 
1. 隔离 实 根 的 依据 





方程 f(x) = 0 的 根 的 隔离 ， 依 据 下 列 定理 。 

















定理 2.1 设 实 函数 jx) 在 区 间 [a,5] 单 调 连续 ， 且 有 
f(a)f 0P)<0 


则 方程 f(x) = 0 在 区 间 [4,5] 内 仅 有 一 个 实 根 。 











2. 隔离 实 根 的 方法 


壬 高 等 数学 中 ， 应 用 一 元 函数 的 导数 ， 可 以 研究 函数 的 若干 性 质 ， 例 如 函数 的 四 凸 性 、 


















































函数 的 升降 区 间 、 函 数 的 极 值 等 等 。 当 然 ， 应 用 导数 就 可 以 确定 方程 f(x) = 0 的 左 端 函数 


f(x) 的 零点 所 在 区 间 ， 即 方程 f(x) = 0 的 根 区 间 。 当 f(x) =0 不止 一 个 根 时 ， 亦 可 以 确 




















fz 

















AS 一 荆 - 


村 本 








定 出 每 个 根 所 在 的 区 间 。 
例 2.1 求 方程 





f(x)=x -5x +3x—5=0 
的 根 所 在 区 间 。 
解 因为 


f (¥)=(x-3)(3x-D) 
f(D=23x=3) 





F 顿 先 代 法 





m6) = /|(]- 673). 于 是 ， 对 于 函数 f(x) 我 们 有 表 2.1。 





















































表 2.1 
1 1 1 5 5 
区 | 2 ? 9 ,3 3 3， > ce 
又 间 (—%, =) 3 | 3 (=,3) (3,+%) + 
f (x) 本 0 0 十 
148 20 
| ee 和 -4 Co 
有 27 站 
f (x) 0 十 十 十 
从 表 2.1 中 即 知 ， 方 程 在 区 间 
1 1 
rt 一 ,3 3， 
(oo | 加 ] [3,%] 
各 仅 有 一 个 实 根 。 考 虑 到 有 -1)=-4、h5)=20， 因 此 方程 的 有 限 区 间 分 别 是 
1 1 
二 | 二 一 ,3 3,5 
[ 3 [Ss ] [3,5] 
确定 的 有 限 区 间 [a,b] 比 较 大 时 , 为 了 减少 闭 区 间 套 法 的 计算 量 , 我 们 可 以 用 逐步 搜索 法 






































即 不 等 式 f(xo)f(xoth)<0 成 立 ， 


























xof+h]。 缩 得 有 根 区 间 的 基本 计算 步骤 如 下 : 





第 一 步 x 生 0; 


第 二 步 着 fxojftxorh)<0 则 有 根 





区 间 缩 短 为 [xo, xot 














民 区 间 缩 短 。 方 法 是 ， 从 端点 xo=a 出 发 ， 按 某 个 预先 选 定 的 步 长 h, 一 步 步 向 右 进行 计 
算 ， 即 检查 每 一 步 的 起 点 xo 和 终点 xoth 的 函数 值 是 否 同 号 。 如 果 发 生 f(x0) 与 ftxo+hb) 异 号 ， 
那么 所 求 的 根 必 在 区 间 [xo, xoth] 中 ， 这 时 有 根 











区 间 就 缩短 [xo， 


J 上 
和 


h]， 否 则 进行 第 三 
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第 三 步 x0 寺 xo 十 户 ， 转 向 第 二 步 














例 2.2 试 缩短 例 2.1 中 方程 的 有 





1 1 
民 区 间 [一 1 二 了 冯 
| [3 








Es 


解 : 荐 取 户 = 卫 ， 那 么 按 上 述 第 短 有 根 区 间 的 计算 上 


























[3,5]。 





又 计算 ， 其 结果 可 列表 如 表 2.2 所 示 。 










































































表 2.2 例 2.2 缩短 有 限 区 间 
X0 -] -2/3 -1/3 0 1/3 
f(xo) 十 
X0 1/3 2/3 1 4/3 5/3 2 7/3 8/3 3 
f(xo) 十 + 于 机 
X0 3 10/3 和 4 13/3 14/3 5 
f(xo) 让 
由 表 2.2 即 知 ， 方 程 的 有 限 区 间 分 别 为 
S 11 
二 ] .一 EY ey 2 4 ,4 
[ 3] (3 ] 这 ] 


2.1.2 闭 区 间 套 法 
1. 闭 区 间 套 法 的 基本 思想 
经 过 缩短 后 的 有 看 



































低 。 为 了 提高 近似 根 的 精确 度 ， 进 


又 那样 








很 “粗糙 ”既是 说 精确 度 征 
共有 上 述 缩短 有 根 区 间 的 计算 步 
面 介 绍 闭 区 间 套 法 的 基本 思想 。 

ES 







































































区 间 [a,b] 


























人 
等 分 

















， 分 点 为 二 >(a+tb) 计算 /一 +2) 的 什 ， 寿 健 巧 太 ) = 











_a+b 


否则 判断 不 等 式 


人 





flWf(——)<0 


是 否 成 立 ， 




















a 


+Db 
| 


否则 有 根 区 间 为 








[ai,b]=[a, 二 


人 


La,b]=[——,0] 


再 把 区 间 [aj,b] 二 等 分 ， a +b), 计算 f(2 


2 a 





(一 一) = 0 ， 就 得 到 方程 的 实 根 & = ( 





区 间 [ab] 内 的 任意 一 点 均 可 作为 方程 的 近似 根 ， 当 然 这 样 的 近似 根 




















步 缩短 有 根 区 间 ， 而 又 不 





大 的 计算 量 ， 我 们 采用 闭 区 间 套 法 《〈 即 二 分 法 )。 


上 有 唯一 的 根 a 将 区 间 [a,b] 分 成 两 个 小 区 间 ， 通 常 采用 二 





0 ， 就 得 到 方程 的 实 根 


全 二) 的 值 ， 若 碰 巧 


一 一 一 ) 。 否 则 判断 不 等 并 
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2 


(a= 0 


2 





是 否 成 立 ， 若 不 等 式 成 立 ， 则 记 有 根 区 间 为 [a,,b,] = [a,， 





-] 





否则 有 根 区 间 为 
a 








[a,,b,1=| ,0 


再 把 区 间 [a, ,六 ] 二 等 分 ， 分 点 为 二 本 (w+ )， 计算 f( 呈 守 ) 的 人 等 等 ， 








重复 上 述 
































过 程 ， 经 过 nm 步 后 我 们 就 得 到 了 一 串 有 根 区 间 ， ee 即 











[a,bllai,b1l [a,,b,] oo [a,,b,] 

















有 根 区 








[a, ,5, ] 的 长 度 为 坟 





区 间 [a, ,5b, | 内 任意 一 点 作为 方程 的 近似 根 时 ， 








ware, menor 4 


la F(a +b) En [上 (2.1) 


2 
2. 站 
由 上 述 可 知 ， 闭 区 间 套 法 是 求 方程 f(x)=0 的 近似 根 的 有 效 方法 。 用 闭 区 间 套 法 求 方程 












































f(x)=0 的 根 w e[a,b] 时 ， 若 预先 给 定 误差 不 超过 s>0, 那 么 我 们 可 以 由 不 等 式 〈2.1)， 得 


























i ~ (0— a)<e 
解 之 有 
Cs 
17 之 a 
In2 
i 




















这 样 我 们 只 需要 将 有 根 区 间 [ab] 二 等 分 本 次 ， 得 到 有 根 区 间 [a,,b, ]， 取 划 
了 


义 


中 点 名 作为 方程 的 要 a 的 近似 值 ，C # 5(w， +b, ) 就 是 满足 精度 要 求 的 近似 根 。 闭 区 






































间 套 法 求 方程 的 近似 根 的 优点 是 计算 简单 ， 收 敛 速度 也 不 算 太 慢 , 与 以 1/2 为 公 比 的 等 比 级 
数 的 收敛 速度 相同 , 但 是 它 不 适用 于 求 二 重 根 等 等 。 用 闭 区 间 套 法 求 单 实 根 的 基本 计算 步 又 
如 下 : 
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第 一 步 。 输入 有 根 区 间 的 端点 a、b 及 预先 给 定 的 精度 。; 

第 二 步 zt 

第 三 步 ”车 f(g)f(x) <0 则 5 <x 转向 第 四 步 ， 否则 a < x ， 转 向 第 四 步 ; 

第 四 步 着 84<e ， 则 答 出 方程 满 中 精度 要 求 的 根 x= (4 二 及， 结束 ， 理 风力 





AS 一 J 上 
同 第 二 步 。 


算法 2.1 闭 区 间 套 法 
1. 算 法 入 
2. 读 入 数据 ab, gs, 5。 


























3 7(a+D) 5 
4. 妨 拓 太 DO). 


5.y < f(x). 





6. 若 ABS(y)<6 或 ABS(b-x)<e 则 取 root=x, 并 转向 9。 
7. 若 sign(yi)sign(y)<0 则 和 x。 
8. 转 向 3。 


9. 输 出 root, y。 




















10. 算 法 出 
11. 说 明 : 本 算法 求 方程 f(x)=0 在 区 间 [a,b] 内 的 实 根 ; 
@)s 为 根 的 允许 误差 6 为 f(x)=0 的 允许 误差 ; 

















加 林 算 法 得 到 的 zo = 了 (a+) 一 定 收敛 〔 当 mw) 到 root 


























~ 





例 2.3 求 2.1 中 方程 在 区 间 国 内 的 根 的 近似 值 ， 要 求 精确 到 10“， 用 四 位 小 数 计算 。 








解 : 根据 精度 要 求 预先 估计 所 要 二 分 的 次 数 ， 按 误差 估计 式 〈2.1)， 有 


] 
妆 = 一 
了 人 























一 9) 


la—x, 














< 0.0052 








因 b-a=1/3, 故 只 需要 二 分 区 间 五 次 便 可 达到 要 求 的 精度 |a 一 x 














计算 结果 如 表 2.3 所 示 。 




















表 2.3 例 2.3 闭 区 间 套 法 计算 结果 
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n an bn Xn Sing(f(xn)) 
0 1.6667 2.0000 1.8334 - 
1 1.6667 1.8334 1.7501 十 
2 1.7301 1.8334 1.7918 
3 1.7918 1.8334 1.8126 
4 1.7918 1.8126 1.8022 
5 1.8022 1.8126 1.8074 

es |S 
所 以 ， 且 方程 在 区 间 | 3 之 | 内 的 

os1.8074 





用 闭 区 间 套 法 可 以 将 有 根 区 间 缩 短 到 很 小 ,近似 根 





























的 精度 可 以 得 到 提高 。 然 而 ， 如 果 要 


求 近 似 根 的 精度 比较 高 , 应 用 这 种 方法 的 计算 量 就 比较 大 , 这 时 我 们 应 当 采 用 迷 代 法 提高 近 


似 根 的 精度 。 
2.2 简单 迭代 法 


2.2.1 简单 跌 代 法 的 基本 思想 和 计算 步骤 


























简单 跌 代 法 是 一 种 重要 的 逐次 盟 近 方法 。 它 的 基本 思想 是 : 


























首 儿 








将 方程 fx)=0 改写 成 


某 种 等 价 形式 ， 由 等 价 形式 构造 相应 的 选 代 格 式 ， 然 后 选取 方程 的 某 个 初始 近似 根 xo， 代 
入 迭代 格式 反复 校正 根 的 近似 值 , 直到 满足 精度 要 求 为 止 ,简单 迭代 六 























| 





第 四 步 : 当 








Xr 二 Xx, 





其 中 ，p(x) 称 为 欠 代 函数 ，x，，= G(X ) 称 为 迭代 格式 ，xo 称 为 迭代 初 值 。 


算法 2.2 简单 迭代 法 
1. 算法 入 口 。 








第 一 步 : 构造 方程 ftx)=0 的 等 价 形式 x=@(x); 
第 二 步 : 给 定 xo E [a,b]([a,b] 为 hx)=0 的 有 根 


第 三 步 : 作 计算 Yi 二 VC) 天 一 02 
































区 间 )， 使 Kxo)=0 


<E 时， 取 方 程 fx)=0 的 根 w = Xi。 


2. 读 入 数据 x0〔( 初 值 )，s，itmax〔 控 制 常数 ) 











3. itnum 和 1 


4. xX < 拓 D(CX0) 

















的 基本 计算 步骤 如 下 : 
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5. 若 fabs(xi 一 Xo)<s， 则 取 root=x， 








并 转向 10。 





6.， 车 itnum=itmax， 则 转向 11。 
7. itnum=itnum+l]。 

8. Xo 导 X 

9. 转 同 4。 

10. 输出 root， 并 转向 12。 


11， 打印 “Vanish” 标 志 。 














12， 算 法 出 口 。 


说 明 : 























QD， 本 算法 求 方程 x=p(x) 在 xo 附近 的 根 ; 
忆 ，x0,xl1 分 别 为 每 次 迭代 的 初 值 和 终 值 ; 
(，&g 为 根 的 允许 误差 ，itmax 为 最 大 迭代 次 数 ,“Vanish” 为 欠 代 失败 标志 。 









































例 2.3: 求 方程 x ”一 x 一 1=0 在 x=1.5 附近 的 一 个 根 〈 用 六 位 有 效 数字 计算 ) 


解 : 将 原 方程 改写 成 等 价 形式 : 





X=MVx+l 


从 而 有 和 迭代 格式 


一 3 
2 二 3 十 1 





k=0,1,2,... 




















取 和 迭代 初 值 xo=1.5， 用 迷 代 格式 反复 校正 方程 的 近似 根 ， 其 各 次 达 代 的 数据 结果 如 表 2.4。 
从 表 2.4 可 以 看 出 ， 如 果 只 取 六 位 有 效 数 字 ， 那 么 结果 xy 与 xs 已 完全 相同 ， 这 时 可 以 
认为 x7 实 际 上 已 满足 方程 ， 从 而 得 到 所 求 方程 的 根 为 & 3 1.32472 





















































表 2.4 迭代 结果 


Xk 





OO 信人 一 Ol 


LS 

1.35721 
1.33086 
1.32588 
1.32494 
1.32476 
1.32473 
1.32472 
1.32472 
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2.3 牛顿 迭代 





牛顿 迭代 法 主要 就 是 将 简单 跌 代 法 的 迭代 格式 改变 为 以 下 格式 : 

oy k= 0,1,2, 

这 就 是 著名 的 牛顿 迭代 格式 。 应 用 此 格式 来 解 方 程 fx)=0 的 这 种 方法 就 称 为 牛顿 迭代 法 。 
2.3.1 计算 步骤 

1. 基本 牛顿 迭代 法 计算 步骤 

用 牛顿 迭代 法 解 方 程 fx)=0 的 基本 计算 步骤 是 

第 一 步 : 给 出 初始 近似 根 xo， 及 精度 s。 

第 二 步 : 计算 


XI = Xx 























fo 生 jxo) 
入 二 


XI 二 Xo 2 


第 三 步 : 判断 ， 若 |x, 一 x。| <# ， 则 转向 第 四 步 ， 否 则 x。<= x ， 转 向 第 二 


午 


a 


小 




















第 四 步 ， 输出 满足 精度 的 根 xj， 即 axx1， 结 束 。 
2. 常用 牛顿 迭代 法 计算 步 台 
控制 迭代 终止 ， 如 果 不 单 用 |xi, 一 总 | < 二， 我 们 有 下 列 计算 步 又 




















六 一 步 :给 出 初始 近似 根 xo， 及 精度 si ，sa， 并 计算 ; 


























态 生 jxo) 
A Sf (xo) 
第 二 步 :， 作 一 次 选 代 计算 ; 
| = 
得 到 新 的 近似 根 x!:， 并 计算 : 
fi f(x) 
A f(x) 


第 三 步 : 如 果 xl 满足 
ll<el 或 者 se? 





算法 2.3 
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则 终止 迭代 ， 以 xi 作为 所 求 的 近似 根 ， 即 osx1;， 否则 转 第 四 步 。 这 














[x —xo| IxkcC 





[ac 











其 中 C 是 取 绝对 误差 或 相对 误差 的 控制 常数 ， 一 般 可 取 C=1。 











第 四 步 :， 如 果 人 迭代 次 数 达到 预先 指定 的 次 数 N， 或 者 fi = 0 ， 则 方法 失败 ; 


Xo Xl 

万 和 擂 太 

有 hn/ 
再 转 第 二 步 继续 迭代 。 


牛顿 近代 法 
算法 入 口 。 
读 入 数据 x。( 初 值 )，s，itmax、C (控制 常数 ) 














itnum 和 1 并 万 生 jxo)。 


denom < f (x0). 


若 denom=0 则 转向 14。 





XXX _/ 
1 0 denom 


fi 守 f(x1) 
若 fabs(xi)<C， 则 取 root=x， 并 转向 10。 


若 ABS(d)< s 1, 或 ABS(fi)< 8 5, 则 取 root=x1, 并 转向 15。 


若 itnum=itmax， 则 转向 16。 


.litnum < 拓 1itnum+l 。 


Xo “一 XI 


， 转 问 4。 


打印 “singular” 标 志 。 
输出 root， 并 转向 17。 


打印 “Vanish” 标 志 。 








否则 ; 
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17. 算法 出 口 。 
18.， 说 明 : @D 本 算法 求 方程 fooO=0 在 xo 附近 的 实 根 ; 
@ es 1、s ;为 误差 界 ; 
(@)xo. x1. itmax、“vanish” 与 算法 2.2 同 ,“singular' 为 奇异 标志 。 
2.3.2 如 何 选取 初 值 xo 
要 使 应 用 牛顿 迭代 法 格式 在 非 局 部 的 区 间 [a,b] 上 收敛 , 条 件 比 较 茜 刻 ， 判断 起 来 常常 并 
不 容易 ， 因 而 对 此 我 们 不 作 深入 探讨 。 由 于 牛顿 迭代 法 求 单 根 具有 局 部 收敛 性 ， 而且 收敛 速 
度 很 快 ， 所 以 我 们 只 需要 注意 选取 初始 值 x。， 就 能 得 到 满意 的 结果 。 一 般 选 取 的 初 值 xo 应 
满足 
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f'(xo, 二 站 (zxo) 














例 2.4 计算 V0.78265 的 近似 值 ，s=10。 























解 : 令 x = Vc, 则 问题 化 为 求 方程 Kx)=x2-c=0 的 正 根 。 建 立方 程 的 牛顿 迭代 法 格式 是 ; 


Xi 一 C _1 C 
Xprl = Xx 三 广 | Xx 十 
2 .2 Xp 






































这 里 c=0.78265, 从 简单 的 平方 根 表 中 查 得 xo=0.88, 以 此 作为 初 值 ， 进 行 迭代 ， 计 算 结 果 


如 表 2.5。 可 以 看 到 ， 只 用 三 次 迭代 就 得 到 了 满足 精度 要 求 的 结果 ， 取 



































V0.78265 = 0.884675 。 这 是 平方 根 精 确 化 的 有 效 且 简单 的 方法 。 


CN 




















表 2.5 例 2.4 迭代 结果 





k Xk 

0 0.88 

1 0.884688 
2 0.884675 
3 0.884675 


2.3.3 几何 意义 
牛顿 迭代 法 有 明显 的 儿 何 意义 ， 见 图 2.1。 我 们 知道 ， 方 程 f(x)=0 的 根 u 在 几何 图 形 上 
表示 曲线 y=f(x) 与 轴 的 交点 的 横 坐 标 。 设 xx 是 a 的 某 个 近似 未 知 的 横 坐 标 ， 过 曲线 y=f(x) 
上 的 对 应 点 PkCxo, Kxo 引 切线 ， 其 方程 为 
p= fx)+f (ri)x—xi) 
切线 与 x 轴 的 交点 横 坐 标 为 xy ， 则 点 Xi 必 满 足 该 切线 方程 ， 即 是 
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二 f(x) + f (Xi)xin — Xi) 
这 正 是 牛顿 迭代 法 格式 。 因 此 ， 牛 顿 迭代 法 义 称 为 切线 法 。 














图 2.1 























作业 : 求 方程 x-In3x=0 的 两 个 根 ， 利 用 简单 跌 代 法 和 牛顿 迭代 法 编程 。 
( 根 在 0.5 和 1.0 附近 ) 











在 了 


旦 组 的 数值 解决 
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组 的 数值 解法 
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- 程 和 科学 计算 






































的 有 


限 次 变换 ， 在 没有 
称 为 从 代 法 ,把 线性 
生 一 个 近似 解 向 量 序列 ,逐步 























近似 值 。 

















阶 线 怕 





尺 数 方程 组 的 解 看 作 是 


当然 ， 不 论 用 哪 一 种 方法 求解 
:代数 方程 组 


,许多 问题 的 解决 往生 


归结 为 解 一 个 线性 代数 方程 组 。 线 属 











FE 要 有 两 类 ; 一 类 称 为 直接 解法 ， 直 接 解法 是 一 种 变换 法 ,通过 对 原 方程 








台 ES 








E 代 数 方 
组 


类 














原始 数据 误差 和 舍 入 误差 的 情况 下 , 将 


甘 个 


不 人 | 





二 


坦 








近 准 而 









































>» 





解 , 用 有 限 个 步 又 计算 4 
首先 多 


| 方程 的 精确 解 ; 








能 得 3 











极限 过 程 的 极 











H 
1 











准 
:代数 方程 组 有 只 


有 有 



































须 判 明 线 怡 











I 


限 ， 从 所 给 初始 向 量 出 发 ， 产 


解 的 具有 给 定 精 





有 有 





度 的 














其 系数 矩阵 A 为 非 奇异 ， 

















本 章 主 要 介 
3.1 高 斯 消去 法 
3.1.1 基本 思想 


1. 当 A 为 下 三 角 和 矩阵 
































Ax=b (3.1) 
亦 即 detA 关 0, 这 时 唯一 解 是 
X"=A'b (3.2) 


求解 线性 代数 方程 组 的 直接 解法 和 和 迭代 解法 中 的 几 个 主要 算法 。 























线性 代数 方程 组 中 ， 若 系数 矩阵 A 为 一 下 三 角 阵 时 ， 即 式 (3.1) 有 形式 

[a 0 A ” 

2 | =| | 63) 

[a a an| [x Lb, 
则 我 们 可 以 从 第 一 个 方程 中 求 出 xi: 代 入 第 二 个 方程 中 求 出 x2; 将 交 交代 入 第 三 个 方程 中 求 
出 x3; 依次 类 推 ， 直 到 将 xl xx 代入 第 n 个 方程 中 求 出 xs, 从 而 很 容易 第 求 得 x。 这 个 




















求解 过 程 可 
2. 当 A 为 上 三 角 和 矩阵 
线性 代数 方程 组 








pp， 











若 系数 矩阵 A 为 一 上 三 角 阵 时 ， 即 式 (3.1) 有 形式 
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U1 002 CT | b | 
022 本 x» 匡 b, (3.4) 

0 a | | Xx, b, 





























则 我 们 可 以 从 第 nn 个 方程 中 求 出 x ; 代入 第 n 一 1 个 方程 中 求 出 x ; 将 x,、Xx 代入 倒数 














第 三 个 方程 中 求 出 x,_,; 依次 类 推 ， 





到 将 Xx, 、x, 1 、..，、xx; 代入 第 一 个 方程 中 求 出 x ， 

















从 而 即 得 方程 得 解 向 量 。 这 个 求解 过 程 称 为 回 代 过 程 ， 可 表示 为 数学 算式 
Xi =b, /a 


n 3.5 
Xx -a- oj k=n—1,n—2,.…,] ( ) 
j=k+l 


3. 当 A 为 一 般 矩 阵 

一 般 地 ， 若 系数 和 矩阵 A 不 是 一 个 三 角 和 矩阵 ， 那 么 将 A 化 成 一 个 上 三 角 阵 ， 即 将 方程 组 
式 〈3.1) 化 成 方程 组 式 (3.4) 的 形式 〈 此 过 程 称 为 消去 过 程 )， 再 按 方程 组 式 〈3.4) 的 求 
解 算 式 〈3.5) 计算 ， 即 可 求 出 方程 组 式 (3.1) 的 解 向 量 x。 这 种 解 线性 代数 方程 组 的 方法 
称 为 高 斯 消去 法 。 





















































3.1.2 基本 方法 























解 线性 代数 方程 组 式 〈3.1) 的 高 斯 消去 法 ， 主 要 分 为 两 个 过 程 ， 消 去 过 程 和 回 代 过 程 。 
(1) ”消去 过 程 

高 斯 消去 法 的 消去 过 程 ， 是 应 用 和 矩阵 的 初等 变换 将 系数 矩 了 泗 A 化 为 上 三 角 阵 ， 与 此 同 
时 将 方程 组 的 右 端 向量 b 增补 作为 A 的 第 n 十 1 列 ， 构 成 增 广 和 矩阵 ， 同 时 参加 变换 ， 即 将 式 
(3.1) 化 为 式 〈3.4) 的 形式 。 

消去 过 程 共 有 n 一 1 个 步骤 ， 每 个 步骤 都 是 应 用 矩阵 的 初等 行 变换 ， 将 矩 阵 的 茶 一 列 的 
主 对 角 元 以 下 的 元 素 化 为 零 。 第 一 步 将 第 一 列 主 对 角 元 以 下 n 一 1 个 元 素 化 为 零 ， 第 二 步 将 
第 二 列 主 对 角 元 以 下 n 一 2 个 元 素 化 为 零 ; ……; 第 k 步 将 第 k 列 主 对 角 元 以 下 n 一 k 个 元 素 
化 为 零 ; ……; 第 n 一 1 步 将 第 n 一 1 列 主 对 角 元 以 下 的 1 个 元 素 化 为 零 。 这些 变 换 同时 施 予 



































































































































第 n 十 1 列 。 这 个 过 程 可 表示 为 
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(有 (FO) (Kk) 
(0) ,0 () 1 a Qe 
at 12 CT Ontl CC (有 ) 
() (0 jl 研 
了 ~- 0 022 i Hy Gyn 0 
(1 1 
[0 U2 Qin | 0 a 
(n-l) (n-l) (nl) (nl) | 
Fat | 人 Lntl 
(n-l) (n-l) (n-l) 
0 Qn Ginn CU 
(n-1) (n-1) 
L 0 Gin Gintl J 
k) 二 
其 a 由 表 2 示 经 k 次 消 元 之 后 单元 ay 的 值 。 
































民 据 线性 代数 知识 ， 我 们 不 难 写 出 消去 过 程 的 数学 算式 








对 于 Kk =1,2,…,n 一 1 


(Kk-1) 
-( 

(Kk-1) 
Ux 


(2) 回 代 过 程 


a = a 
0 Wy 


(k=1) 


将 线性 代数 方程 组 的 增 广 矩阵 , 化 为 式 (3.6) 的 最 后 





程 的 数学 


a 


C7， n+l 





算式 (3.5)， 在 此 写 为 


fav ) 
0) /a . Kk 


a (nl) 
Xr 二 (CE 


i 
9 


J=K+1 


i—k+l],:…,n 





=n -l,l 


QT 。 


(4 oe 


(| 
Un 
(Kk) 
ntl 
大 (kK) 
nn Cr 
,7 十] 





(3.6) 


(3.7) 


一 个 矩阵 的 形式 之 后 ,再 应 用 回 代 过 


(3.8) 








由 此 可 见 , 用 高 斯 消去 法 解 一 个 线性 代数 方程 组 , 计算 步骤 十 分 简 








T 

















对 增 广 和 矩阵 进行 初等 变换 ， 使 之 化 为 上 三 角 阵 ; 然后 计算 式 (3.8), i 


即 得 方程 组 的 解 。 
算法 3.1 高 斯 消去 法 
1.， 算法 入 口 。 








读 入 4) 的 数据 。 


3.， 消去 过 程 4 一 12。 





对 于 三 1,2,…,n 一 1 执行 到 12。 


5， 若 qx =0 则 转向 24。 





对 于 





=k+1,k+2,…,n 执行 到 11 。 


逐个 求 出 Xs, 








单 : 首先 计算 式 (3.7)， 








1 1 Xl; 
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1. ak aik /anko 

8， 对 于 二 krHlk+r2…n 十 1 执行 到 10。 
9. ai a 一 aik akj 

10. Continue。 

11. Continue。 

12. Continue。 


13. 回 代 过 程 14 一 22。 











14. 若 am=0 则 转向 24。 


1$, Xnds dpntl /oe 





16. 对 于 k=n 一 1,n 一 2,…,1 执行 到 22。 





17. BO akn+l 





18. 对 于 j=k 十 1,k 十 2,…n 执行 到 20。 
19. B 一 B 一 axij。 

20. Continue。 

21. xk eB/axxo 

22. Continue。 

23. 输出 解 x， 并 转向 25。 


24. 打印 “Singular” 标 志 。 























25. 算法 出 口 。 
26. 说 明 : 中 本 算法 求解 方程 组 Ax=b 的 解 x; 
@Anxo:0 是 A 的 增 广 矩阵 ， 第 n 十 1 列 存放 b， 消 去 过 程 和 回 代 过 程 都 是 在 
增 广 矩阵 A 中 进行 ， 解 在 x 中; 
@“Singular” 为 奇异 标志 。 


3.1.3 高 斯 消去 法 的 矩阵 形式 























由 于 高 斯 消去 法 中 消去 过 程 ， 是 对 增 广 矩阵 [4 四 作 n 一 1 次 初等 行 变换 ， 每 次 初等 行 变 
换 后 产生 出 一 列 中 所 需 零 元 素 。 由 线性 代数 知识 ， 作 一 次 初等 行 变换 ， 相 当 于 左 乘 以 一 个 初 
等 矩阵 ， 因 此 消去 过 程 可 用 矩阵 运算 表示 为 
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(n-1) (n—1) (n-1) (n-l1) 
2411 ”A b 


12 


022 


Li …L,L [4,5]= 


(n-1) (n-l1) 
0 a bp, | 








(n-1) (n-1) (n-l) 
‘ay b; 








(3.9) 





其 中 ，LjG=1,2,…,n-1) 为 初等 矩阵 ， 对 应 于 消去 过 程 中 第 j 步 所 作 和 矩阵 初等 变换 。 若 记 
式 (3.9) 等 号 右 端 的 上 三 角 阵 为 R， 第 n 十 1 列 为 列 和 矩阵 y， 并 记 工 二 LalLn2…L1， 则 式 (3.9) 


























































































































可 简写 为 
L "|4,5]=[R,»] (3.10) 
即 有 
A=R A=LR 
= > LRX=LyS Rx=y (3.11) 
Lb=y Ly=b 
由 此 说 明 ， 如 果 A 二 LR， 则 解 线性 代数 方程 组 的 过 程 ， 可 以 写成 两 步 : 
第 一 步 ” 求 列 向 量 y Ly=b 
第 二 步 ” 求 解 向 量 x Rx==y 
上 ， 其 中 第 一 步 包 含 在 消去 过 程 中 ， 第 二 步 就 是 回 代 过 程 。 
式 (3.10) 中 ， 初 等 矩阵 Li 的 具体 形式 为 
1 
了 = 大 =12,…,1 一 1 (3.12) 
一 人 1 
0 : : 
| -1, 0 1 | 
其 中 lx=a lx 二 GUY /CU 1) ,1=k+1,**,no 从 而 
VO Dn et Di Do ba 
L ， 3.13 
a [i 1 \ | : 
0 4 
| 1 0 1 | 
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例 3.1 


[1 2 



































因此 ， 高 斯 消去 法 的 外 
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解 ”消去 过 程 











-1 3 
1 -150 
I4 1 -2 2 


可 代 过 程 ; 


1 


~|0 
0 


E 阵 表达 形式 : 消去 过 程 是 式 (3.10); 
j 高 斯 消去 法 解 方程 组 





Xi 十 27) —X =3 


XI 一 ZX 十 9X3 = 0 


4xi +X, 一 273 = 2 


2 -1 3 
-3 6 -3 |~ 
-7 2 -10 


-3/ CI2) = 
ok 3)—6x J 3)=3 


3 
Xi =3—2x Dx 一 
2 Ge 4 


方程 组 的 数值 解法 





回 代 过 程 是 式 (3.11)。 


1] 2 -1 3 
0 -3 6 -3 
0 0 -12 -3 








所 以 ， 方 程 组 式 〈3.14) 的 解 为 





1 


3 
Xl 3 7 = 


3.2 主 元 素 消去 法 


根据 数值 
， 为 避免 作 除 数 的 主 对 角 线 上 的 元 素 的 
































位 于 主 对 角 线 上 的 在 消去 过 程 中 用 作 民 
选 主 元 技术 是 在 消去 过 程 的 n 一 1 步 ， 
9 线 上 ， 作 为 主 元 。 由 了 


列 变换 ， F 选 主 元 的 范围 


列 主 元 消去 法 和 全 主 元 消去 法 。 

















运算 若干 原则 之 一 “要 避免 绝 

















水 数 日 


1 
J 












































,每 步 总 是 选 





























;绝对 值 最 大 的 元 素 , 经 过 久 














变换 至 3 











对 及 























3.2.1 列 主 元 消去 法 


所 谓 列 主 元 消去 法 ， 是 在 高 斯 消去 法 的 消去 过 程 中 ， 











操作 ， 成 为 首先 在 第 k 列 中 ， 从 ar ， 








(Kl) 。。 
CH ， 


























人 中 选 出 绝对 值 最 大 者 ， 


(3. 





色 对 值 很 小 的 数 作 除数 ”在 高 斯 消去 法 消去 过 程 
名 对 值 过 小 ， 我 们 需 采 用 选 主 元 技术 。 
的 元 素 称 为 主 元 素 ， 简 称 主 


E 隆 





14) 





的 行 、 





不 同 ,构成 解 线 性 代数 方程 组 的 


第 kk 步 (k=1,2…,n 一 1) 增 加 选 主 元 


经 过 行 
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交换 把 绝对 值 最 大 者 所 在 的 行 与 第 k 行 交 换 ) 把 绝对 值 最 大 的 元 素 交 换 到 au 的 单元 























然后 作 高 斯 消去 法 消去 过 程 中 的 第 k 步 ， 初 等 变换 产生 第 k 列 的 n 一 k 个 零 元 素 。 回 代 过 程 
与 高 斯 消去 法 的 回 代 过 程 相同 。 
列 主 元 消去 法 的 基本 计算 步骤 归纳 为 : 
(1) 消去 过 程 
对 于 k= 二 1，2，…，n 一 1 做 


























大 


第 一 步 ” 选 主 元 : 6 生 ak 0 ， tk; 


若 lat ”|>|o|, No eat? tok, EkrLkt2,n 


大 





步 ”判断 : 若 o 三 0 说 明 方程 组 的 系数 矩阵 是 奇异 阵 , 则 终止 计算 , 否则 转 第 三 步 。 
步 














他 
NS 


A 一 


J 交换 : 若 t 关 k 则 


进 


u 生 ; Be 熏 人 二 < 二 1 


J]=k, k 十 1， Sy n 十 1 
否则 直接 转 第 四 步 。 





(ED 
A 、 2 天 大 -1 | a. 
第 四 步 ” 计 算 : 0 人 )+al Ne 
a 





(k=l) 
kk 


ji 一 Kk 十 1，k 十 2，…，n j=k, k 十 1，*…, n 十 1 
(2) 回 代 过 程 
( 同 于 式 (3.9)) 











算法 3.2” 列 主 元 消去 法 


1. ”算法 入 口 。 





2，” 读 入 4 的 数据 。 


3. ”消去 过 程 4~15。 








4. 对 于 k 二 1,2,…,n 一 1 执行 到 15。 





5. oo 擂 or， 并 t 生 上。 





6. ”对 于 i=krlkt2 na 执行 到 8。 





7. 车 ABS(ag)>ABS(0) 则 oo 二 qa， 并 ti。 
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8 . Continue。 


9. 若 。 二 0 则 转向 20。 





10 若 t 二 k， 则 转向 14。 


11 对 于 j 二 kk+1,.….ntl 执行 列 13。 





12 ak 今 ai;, (两 值 交换 ) 














13 Continue。 








14 算法 3.1 步 6 一 11。 
15 Continue。 


16 回 代 过 程 17 一 18。 





17 ” 若 a,, =0 则 转向 20。 


18 算法 3.1 步 15~22。 
19 输出 解 x， 并 转向 21。 


20 打印 “Singular” 标 志 。 




















21 算法 出 口 。 
22 说 明 : GD 本 算法 求 Ax=b 的 解 x; 


@ 步 5 一 13 为 选 主 元 和 行 交换 程序 ; 

















四 4 全 “ Singular” 与 算法 3.1 同 o 


3.2.2 全 主 元 消去 法 























所 谓 全 主 元 消去 法 ， 是 在 高 斯 消去 法 的 消去 过 程 中 ， 第 k 步 (Kk 二 1，2，...,， n 一 1) 增 
加 选 主 元 操作 ， 成 为 : 首先 在 子 和 矩阵 


























(ED (CD 
CC 大 pn 


(Kk-1) (kK-1) 
CA 的 Ci 











中 , 选 出 绝对 值 最 大 的 元 素 , 经 过 行 、 列 交换 (把 绝对 值 最 大 的 元 素 所 在 的 行 与 第 k 行 交 换 ， 
再 把 绝对 值 最 大 的 元 素 所 在 的 列 与 第 k 列 交 换 ), 把 觉得 值 最 大 的 元 素 交 换 到 au 的 位 置 ; 然 
后 作 高 斯 消去 过 程 中 第 k 步 ， 初 等 变化 产生 第 k 列 的 n 一 k 个 零 元 素 。 回 代 过 程 与 高 斯 消去 
法 的 回 代 过 程 相同 。 
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列 交换 将 改变 未 知 数 的 排列 顺序 ! 














由 于 全 主 元 消去 法 选 主 元 的 范围 比 列 主 元 消去 法 大 , 除 进 行 行 行 交换 之 外 , 一 般 还 进行 
列 交换 , 因此 对 应 的 未 知 数 的 排列 顺序 一 般 与 原来 不 同 , 进行 交换 的 两 列 所 对 应 的 未 知 数 也 
作 了 对 调 。 例 如 ， 若 系数 矩阵 A 的 第 k 列 与 第 s 列 进行 了 交换 ， 那 么 xx 与 xs 也 相应 地 作 了 
交换 ，xk 的 结果 实质 上 是 xs 的 结果 。 因 而 需 得 在 回 代 过 程 所 得 结果 中 再 作 相 应 得 交换 ， 恢 






































复原 来 的 顺序 ， 从 而 得 到 方程 组 得 实际 解 。 
全 主 元 消去 法 得 基本 计算 步 又 归纳 为 : 
(1) ”消去 过 程 

对 于 k= 二 1，2，...，n 一 1 做 
































第 一 步 ” 选 主 元 : @ 完 0;t 守 0;s 和 0; 
若 |o bla NN wa hse 


i=kk+l,n 
了 二 大 大 十 1 





第 二 步 。 判 断 ， 车 w=0， 说 明 方程 做 的 系数 年 阵 是 奇异 阵 ， 则 终止 计算 ， 否 则 转 第 


第 三 步 ” 行 交换 : 车 1 有 则 











kl). (Kk-l kl). (Kk-l 
We 3 i 2 ) ou 


j=k,k+1,.…,n+l 


否则 直接 转 第 四 步 。 





第 四 步 ” 列 交换 ;，e, 二 ; 若 s Ke 二 ss 
(KE-D . 


大 一 | 大 -1) 。， (K 一 1 
YakDiak al Val) ev 


否则 直接 转 第 五 步 。 











(K-1) 
;二 和 负 大 k— k-1 ad; 
第 五 步 。” 计算 : ay 守 ay +ay CD) 
kk 


i=k+l,k+2,..…,n 
j=k,k+l,.…,n+l 
(2) ” 回 代 过 程 
( 同 于 式 (3.9)) 





三 步 。 
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(3 ) 于 顺 x;: 对 于 k 二 n 一 ]， n 一 2,…,] 做 


若 由 5 ， 
若 e, zy Xo Xe EX; XK) 


算法 3.3 全 主 元 消去 法 
1. ”算法 入 口 。 
2. 读 入 Au oa 的 数据 。 


3. ”消去 过 程 4 一 21。 








4. ”对 于 k= 二 1]，2，...，n-1 执行 到 21。 
5. 0 和 al， 并 t 生 kk， 且 Ss 拓 ko。 


6. ”对 于 i 二 k，k 十 1，...，n 执行 到 10。 











7. 对 于 r= 二 k，k 十 1，...，n 执行 到 9。 


8. ” 若 ABS (wm) <ABS (Cay) 则 @ 和 at， 并 {t 生 1i， 且 SS$ 熏 rtr。 





9 . Continue。 
10. Continue。 
11. 车 @==0 则 转向 30。 


12.” 若 t=k 则 转向 14。 





13. ”算法 3.2 步 11 一 13。 
14. ek。 
15. ”车 s 二 k 则 转向 20。 


16. ek 生 S。 





17. 对 于 i 二 1，2，..., n 执行 到 19。 


18. aik > 3ais (两 值 交 换 )。 

















19. Continue。 





20. 算法 3.2 步 14。 
21. Continue。 


22. 回 代 过 程 23 一 24。 





23. 若 am 二 0 则 转向 30。 
24. ”算法 3.2 步 18。 


25. 理 顺 x (k= 二 1，2，...，n) 的 顺序 26 一 29。 





20. 


2 


28. 


29. 


30. 


31. 


32. 


第 三 章 线性 方程 组 的 数值 解法 








对 于 k 二 n-1，n-2，...，1 执行 到 28。 





若 eskk 则 j 生 ek， 并 Xi 会 xk。 

Continue。 

输出 解 x， 并 转向 21。 

打印 “Singular” 标 志 。 

算法 出 口 。 

说 明 : 中 本 算法 求 方程 组 Ax=b 的 解 x; 
@ 步 5 一 19 为 选 主 元 和 行 、 列 交换 程序 ; 
@er 存放 列 交换 信息 ; 


四 Ai: (nt+D)» “Singular” 与 算法 3.1 同 。 











例 3.2 用 全 主 元 法 消去 法 解 方程 组 





Xi +2Xx,+3x =1 
7x1 + 8x, +11x; = 一 3 (3.15) 
SX +X, 一 3X73 = 一 人 
























































解 ” 消 去 过 程 : (用 ie 一 一 j 表示 列 交 换 ) 
1 2 3 1 11 8 7 -3 A 
7 8 11 -3|1c—— 3I13 2 1 1 |~|I0 2 2 ——3 
3 1 3 4 3 1 5 4 和 Ll 

0 35 76 $53 

L 11 11 11j 

11 7 8 一 3 ll1 7 8 5 
be BE a a 

11 11 11 11 11 11 
le i 0 i a, 
| 11 11 11」 | 38 38 j 
回 代 过 程 

$5 
Xs = 38 9 三 仿 

38 
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= 一 3 
xi =[-3-8x5-7x( 9 
一 一 2 
= 
所 以 xxX=| 一 3 
5 


理 顺 x;， 求 方程 组 的 真实 解 ， 由 回 代 过 程 所 得 解 向 量 x， 并 不 是 方程 组 的 真实 解 ， 但 只 需 





























j 表示 行 交 换 ) 





将 x 按 列 交换 的 相反 次 序 作 行 的 交换 ， 就 能 得 真实 解 ， 于 是 ( 
= 一 2 一 3 
一 3 12 < 一 3 3 ll<— 35 
5 Rs 一 3 一 2 


所 以 X1 二 一 3，X2 二 3，X3 二 一 2 











作业 : 对 例 3.2 数据 进行 编程 求解 ， 方 法 选用 全 主 元 消去 法 。 


j ix 
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四 草 久 





E 阵 求 逆 


第 四 章 矩阵 求 拟 


4.1 高 斯 - 约 当 消去 法 解 式 (3.1) 


解 线形 方程 组 的 高 斯 消去 法 ， 是 将 方程 组 化 为 方程 组 式 〈3.5) 的 形式 ， 
求 出 方程 组 的 解 。 其 实 回 代 过 程 也 可 以 放 在 消去 过 程 来 完成 , 即 消去 过 程 中 也 把 主 对 角 线 上 
方 的 元 素 化 为 零 ， 使 系数 矩阵 化 为 一 个 对 角钢 














a 
11 


(n) 
022 


这 时 方程 组 的 解 是 





be (n) 
Xx = yx las 

















区 


这 种 消去 法 称 为 高 斯 - 约 当 消去 





夫 。 高 斯 - 约 当 消去 法 是 无 区 











再 经 





器 代 过 程 



































E 阵 ， 即 增 广 和 矩阵 化 为 : 


0 al 


JJ 


a 


nn 


pn 


k=1,2,.……,n 











代 过 程 消去 法 。 

















高 斯 - 约 当 消去 法 看 似 一 种 很 可 取 的 方法 





》 但 








经 计算 ， 它 的 乘除 次 数 为 1/2*n 数量 级 ， 








而 高 斯 消去 法 等 其 他 方法 的 乘除 次 数 为 13sm。 当 n 较 大 时 ， 高 斯 - 约 当 消去 法 比 高 斯 消去 
































法 运算 次 数 增加 是 惊人 的 。 但 是 , 用 它 来 求 逆 和 


矩阵 要 快 得 多 ， 后 者 所 作 乘 除 次 数 约 为 0*nl!。 




















E 阵 确 是 行 之 有 效 的 方法 ， 比 用 伴随 矩阵 求 逆 




















4.2 求 逆 矩阵 的 高 斯 - 约 当 消去 法 


1. 基本 思想 


新 - 约 当 消去 法 是 将 矩阵 4 化 为 对 角 









































局 











阵 ， 进 而 化 为 单位 阵 E。 根 据 线形 代数 知识 ， 将 




















4 化 为 单位 阵 的 一 系列 初等 变换 ， 同 时 依次 施 予 单位 阵 百 ， 则 可 将 巨 化 为 4。 又 知 ， 对 和 拢 





阵 的 一 系列 初等 变换 相当 于 对 和 矩阵 左 乘 一 系列 初等 矩阵 ， 




















因而 有 : 





若 4 非 奇 异 ，44=E, MT 1 ,1 是 初等 矩阵 ， 且 M...M2zM14=E， 则 





1 .NA447= M... MMIE 


所 以 : 
2. 不 选 主 元 的 高 斯 - 约 当 消去 法 





A'= M,... MMIE 
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若 令 初等 矩阵 为 
|1 0 mi | 
0 
1 
M., = my k=1,2,.……,n 
: 1 
0 全 
| my 0 1 | 
上 其! 
Mir = Va 
mi =—al) /a i=1,.…,k—1,k+l,:…n 














在 这 里 a 中 (i =1,2,…,n)) 是 4 经 左 乘 Mi,.….Mii 之 后 的 ax 单元 内 的 值 。 





依次 用 Mi, Mo, .…., Mi, 左 乘 [4,E] 就 有 








M.. .MMI[A,EJ= [E, 4] 

考虑 到 增 广 和 矩阵 L4,B]， 在 每 左 乘 一 个 初等 矩阵 My 之 后 ，2n 列 中 总 是 有 单位 阵 的 个 
列 存在 ， 因 此 可 采用 紧缩 存储 格式 : 左 乘 Mi 之 后 ，4 的 第 一 列 变 为 单位 阵 五 的 第 1 列 ， 增 
广 和 矩阵 [4, 盏 的 第 za+l 列 ( 即 原单 位 阵 的 第 1 列 ) 变 为 Call.…maoD ,因此 可 将 (mm2i...mm) 
T 放 在 4 的 第 一 列 ; 左 乘 12 后 , 4 的 第 2 列 变 成 为 E 的 第 2 列 ， 增 广 和 矩阵 的 第 w+2 列 ( 即 
原单 位 阵 的 第 2 列 》 变 为 12m22.….mn2) ， 因 此 可 将 放 入 4 的 第 2 列 ;等 等 。 即 在 变换 ， 
无 须 存储 E 的 各 列 ， 变 化 可 只 在 矩阵 4 的 各 列 中 进行 。 

于 是 ， 不 选 主 元 的 高 斯 - 约 当 消去 法 求 道 矩阵 ， 采 用 紧缩 存储 格式 的 基本 计算 步骤 可 归 
纳 为 : 

对 于 k=1,2,…n 做 


第 一 步 。 计算 k 列 元 素 : 


































































































~ 

































































Qlam; danx ed; 和 -Ca (izk) 
第 二 步 。 计算 除 第 k 列 、k 行 以 外 的 其 余 元 素 : 


0 Ea;ytaxay (i,j zk) 





第 三 步 。 计算 第 k 行 其 余 元 素 : 








ay Qa (jk) 
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3. 选 主 元 的 高 斯 - 约 当 消去 法 





计算 


与 高 斯 消去 法 一 样 ， 为 了 避免 小 主 元， 保证 算法 的 稳定 性 ， 常 常 需 采 月 



































昌 选 列 主 元 技术 。 
， 每 进行 一 列 的 消 元 之 前 ， 增 加 选 主 元 与 行 交 换 的 步骤 。 与 不 选 主 元 的 高 斯 - 约 当 消 


去 法 不 同 之 处 还 在 于 ， 当 n 步 消 元 结束 之 后 ， 尚 需 按 行 交换 的 相反 次 序 作 列 交换 才能 得 到 


a 二 电 
A ， 这 是 




















因为 : 如 果 第 大 次 消 元 〈 左 乘 Mk) 时 ， 主 元 在 第 i 行 ， 则 第 i、 大 两 行 交 换 ， 消 去 


后 列 向 量 (maxk.…maag 应 放 到 增 广 矩 阵 [4,B] 右 半 部 的 第 i 列 ， 但 现在 的 算法 是 将 放 到 了 增 





广 和 矩阵 [4, 召 ] 右 半 部 的 第 大 列 ， 要 得 到 4 ， 当 然 需 将 最 终 将 第 六 大 两 列 交换 过 来 。 至 于 




















交换 的 相反 次 序 作 列 交换 的 反 序 问题 ， 是 不 言 而 喻 的 。 


选 主 元 的 高 


I 


II 









































对 于 k=1,2,...n 做 














第 一 步 
第 二 步 
第 三 步 
第 四 步 
第 五 步 
作 列 交换 : 


选 主 元 : 


TEL 





对 于 .Fetl kt2,.…n 车 |lex|> 人 
则 wo@an; 7 和 7 
把 第 行 与 第 0 行 交换 


车 了 到 大 则 记 下 所 交换 行 行 号 7, 二; 





并 对 于 . 矿 1,2,...n 做 
&U 01 dm dr dn; eu 
否则 直接 转 第 三 2 


计算 第 列 元 素 : 











CQ lan; dj Oa; dj, -0 a 





计算 除 第 下列 、 大 行 以 外 的 其 余 元 素 : 





0 Caytanay (i,j zk) 


从 





计算 第 大 行 其 余 元 素 ; 





ud 





ay Aa; (jk) 
对 于 所 n-7,n-2,...,1 做 


知人 关 k 则 对 于 二 1,2,...n 做 


(i k) 





按 行 


斯 - 约 当 消去 法 ， 也 可 采用 紧缩 存储 方案 ， 这 时 基本 计算 步骤 可 归纳 为 : 
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1 . 


2 


10. 


11. 


12. 


13. 


14. 


15. 


16. 


17. 


18. 


19. 


20. 


21. 


22: 


23 . 





山 








Nn 
dl 


YY 和 ar ar Sax; 





-1 
A 。 





算法 入 口 。 
读 入 A 的 数据 。 


算法 : 选 主 元 的 高 斯 - 约 当 消去 法 求 逆 和 矩阵 


对 于 k= 二 1，2，...，n-1 执行 到 30。 


选 主 元 5-9。 


wan, 并 s Sk, Htk]SGk. 





对 于 i 二 Kk 十 1，...，n 执行 到 9。 





若 4BS(a ) < 4BS(w) 则 转向 9 


ww 二 qx， 并 s 生 
Continue。 
若 w= 二 0 则 转向 40 


第 Ks 交换 12-16 





若 s 二 Kk 则 转向 17 


帮 K] 和 5 





i 


o 


十 于 j 二 1， 23 RR n 执行 到 16 

















ay 今 4y 〈 两 值 交 换 ) 


Continue 


第 大 步 消 元 18-29 





alan 并 au Ga 





对 于 二 1,2,...,k-1,ktl， 


Ci 二 一 CQ 天 


Continue 


对 于 天 12,…. 大 1, 友 








对 于 产 1.2,., 乒 1 让 


+1，, 





+]， 


.… 执行 到 21 


.2 执行 到 26 


.1 砍 广 到 25 


第 四 章 矩阵 求 北 


dx VY, 
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Nn 
dl 


24. 01 dj 十 QQ1 
25. Continue 
26. Continue 





27.， ”对 于 六 2 . 左 1LEH 执行 到 29 


28 . day 三 CQ1 
29. Continue 
30. Continue 


31. 作 列 交换 32-38 





32 对 于 所 7-1.7-2,...,] 执行 到 38 








33 . 若 1 了 = 转向 38 


34. Ss <1K] 





35. 对 于 i 二 1，2，...，n 执行 到 37。 





36. qa, 售 qx (两 值 交换 ) 














37. Continue。 

38. Continue。 

39. ”输出 解 4n"， 并 转向 41。 

40. ”打印 “Singular” 标 志 。 

41. ”算法 出 口 。 

42. ”说 明 : 
@D 本 算法 采用 紧缩 存储 方案 ， 整 个 计算 过 程 均 在 A 中 进行 ， 结 果 在 A 中 
@ 数 组 元 素 t[k] 记 录 第 k 次 消 元 的 主 元 行 号 





= 





1 -1 0 
例 设 4=|2 2 3|, 求 47 
写 遇 "27 





其 基本 计算 过 程 如 下 : 
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第 四 章 和 矩阵 求 逆 

















[1 -1 0 2] 2 1/2 2 3 1/2 2 3 
[2] 2 3 1 -1 0|>|-12 -1 0| OI-1/2 -2 -3/2|—> 
[于 宁 1 2 坊 、. 22 
| 2 1 $2 2 1/2 -1/3 3/2 

V2 = BB] -572 (S02 13 B/S 
L272 -1/2 -2 -3/2| |-1/2 2/3 -3/2 


| 1/3 -1/3 2/3 1/3 -1/3 2/3 1/3 -1/3 -4 
-1/2 1/3 5/2I— | 1/6 1/3 5/6|— ,1/6 1/3 -| 一 











[|-1/6 2/3 1/6 -1/6 2/3 1/6 -1/6 2/3 6 
| 1 -3 —4 1 -3 -4 1 -4 -3 -4 1 -3 

1 -3 -531 -3 -5 > 1 -5 -3| 一 2 -5 1 -3|=A" 
|-1/6 2/3 6 -1 4 6 -1 6 4 6 -1 4 





作业 : 编制 一 个 和 矩阵 大 小 未 知 时 矩阵 求 拟 的 函数 ， 并 在 主 程序 里 调用 。 
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第 五 章 最 小 二 乘 曲线 拟 合 


5.1 曲线 拟 合 





实践 中 经 常 要 寻求 两 个 〈 或 多 个 ) 变量 间 存 在 的 关系 ， 人 们 希望 用 确定 变量 
间 的 一 个 方程 式 来 表达 这 种 数学 关系 。 

第 一 步 是 收集 资料 ， 显 示 变 量 的 对 应 值 。 例 如 x 和 ?分 别 表示 一 个 成 年 男子 
的 身高 和 和 重量， 那么 n 个 样本 单元 应 显示 身高 zl x2,.….wxn 和 对 应 的 重量 y1, y,,..…， 
i 

第 二 步 就 是 在 直角 坐标 系 中 男 出 点 Goi 六), Co 7), …, (Xns yn)。 这 个 点 集 图 有 
时 称 为 散 点 图 。 












































X 区 
5.1 5.2 
> 
X 
5.3 





从 散 点 图 常 可 看 出 一 条 光滑 的 近似 曲线 。 这 样 的 曲线 常 称 为 近似 曲线 。 例如 
在 图 5.1 中 , 变量 之 间 表 现 为 较 好 地 近似 一 条 直线 , 我 们 说 变量 之 间 有 线性 关系 。 
然而 在 图 5.2 中 ， 变 量 之 间 虽 然 存 在 关系 ， 但 不 是 线性 关系 而 是 所 谓 的 非 线性 关 
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系 。 在 图 5.3 中 ， 变 量 之 间 未 表现 出 关系 。 
寻找 拟 合 给 定 资料 的 近似 曲线 方程 的 问 
点 图 常 能 建议 一 个 方程 的 形式 。 在 图 5.1 中 ， 











y=a+bx 


线 拟 合 


题 ， 一 般 称 为 曲线 拟 合 。 在 实践 中 散 








我 们 可 以 使 用 直线 
(5.1) 





而 在 图 5.2 中 ， 我 们 一 条 抛物 线 或 二 次 册 


y=a+bx+cx’ 





H 线 
(5.2) 


有 时 候 使 用 变换 的 变量 作出 散 点 图 。 例 如 ， 如 果 logy 对 x 导致 一 条 直线 ， 





我 们 应 试用 logy = a+ bx 作为 近似 曲线 的 方程 。 


5.2 回归 











曲线 拟 合 的 主要 目的 之 一 是 从 一 个 变量 











(独立 变量 ) 估计 故 一 个 变量 (相依 


变量 )。 估 计 的 过 程 常 涉及 到 回归 。 如 果 按照 某 个 方程 的 意义 从 x 估计 到 y， 我 
们 称 该 方程 为 y 关于 x 的 回归 方程 ， 对 应 的 曲线 称 为 y 关于 x 的 回归 曲线 。 























5.3 最 小 二 乘 





一 般 ， 有 多 条 菏 一 给 定形 式 的 曲线 似乎 都 可 以 拟 合资 料 集合 。 在 构造 直线 、 
抛物 线 、 或 者 其 它 近 似 曲线 时 ， 为 了 避免 个 人 的 评价 ， 有 必要 一 致 同意 “最 佳 拟 








合 直线 和 “最 佳 拟 合 抛物 线 ” 等 等 的 定义 。 























为 了 导出 一 个 可 能 的 定义 ， 如 图 5.4， 资 料 点 是 。 对 于 一 个 给 定 值 x， 比 如 














x1， 值 yi 和 由 曲线 C 确定 的 对 应 值 之 间 存 在 一 个 差 。 我 们 用 di 记 这 一 个 差 ， 有 
时 这 个 差 称 为 偏差 、 误差 等 等 , 它 可 以 是 正 的 、 负 的 或 者 零 。 类似 地 , 对 应 x2,….xn 























有 偏差 dy,...,dn。 
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量 4d?+d2 +…+d; 提 供 了 曲线 C 对 资料 集合 的 拟 合 优 度 的 一 个 度量 。 如 果 
该 值 比较 小 , 则 拟 合 是 最 好 的 , 如果 比较 大 , 则 拟 合 较 差 。 因 此 作出 下 面 的 定义 : 

定义 ” 若 在 近似 mn 个 资料 点 的 集合 时 , 对 一 给 定 的 曲线 族 的 全 部 曲线 , 其 中 
一 条 曲线 有 性 质 : di + qd? +…+qd? 达 到 最 小 值 ， 则 称 该 曲线 为 给 定 曲线 族 中 的 
最 佳 拟 合 曲 线 。 

有 这 样 一 条 性 质 的 曲线 称 为 最 小 二 乘 意 义 上 对 资料 的 拟 合 , 该 曲线 称 为 最 小 
二 乘 回归 曲线 ， 或 简称 最 小 二 乘 曲线 。 有 这 样 一 条 性 质 的 一 条 直线 成 为 最 小 二 乘 
直线 ， 有 这 样 一 条 性 质 的 抛物 线 称 为 最 小 二 乘 抛物 线 ， 等 等 。 

当 x 是 独立 变量 而 y 是 相依 变量 时 ,习惯 上 常 采 用 上 述 定义 。 如果 x 是 相依 
变量 ， 则 要 修改 定义 ， 用 水 平 偏差 代替 牌 直 偏 差 ， 这 等 于 交换 x 和 y 轴 。 这 两 种 
定义 方法 会 导致 产生 两 条 不 同 的 最 小 二 乘 曲线 。 除 非特 别 说 明 ， 通 常 将 考虑 y 
为 相依 变量 而 x 是 独立 变量 。 































































































5.4 最 小 二 乘 曲线 拟 合 











设 有 m 组 测量 数据 (xi,yi)( 其 中 二 1,2,.….,m), 今 用 一 个 n 次 多 项 式 来 表示 测量 
数据 相应 量 yi 与 日 变量 x; 之 间 的 关系 ， 即 对 测量 数据 进行 拟 合 : 















































n 
2 a j 
p=b +Dx,+hbx? +.+b, Xx’ +e, = 2 bx +é, 
j=0 


式 中 ，bi 为 拟 合 系数 ， 实 际 上 是 一 个 m 个 方程 组 成 的 方程 组 ， 要 使 其 有 解 ， 必 
须 m 宇 n+1， 写 成 矩阵 形式 就 是 : 














yi 1 x x Xr | bo 6 
有 | 1 x, x x Db Wl 
y 1 x xX x |b,| le, 
可 写作 
y= Xb+e 





b=(X'X) XTy 
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测量 拟 合 值 的 计算 为 : 





$= WD= XX XX y 
其 具体 的 推导 过 程 为 : 
l. y= Xb 
2. X'y=X XD 
3. (XX) XTy=(X'X) XI HD 
4. b=(X'X) XTy 





这 样 我 们 可 得 算法 如 下 : 

: 读 入 (xi),(yi) 

: 计算 和 矩阵 

: 计算 X 

: 计算 XIX， 以 及 XIX 的 拟 和 矩阵 
: 计算 (XX)"X 


征 


| 


小 小 村 
天 | | 
息 和 守 汗 


让 
HH 
千 


: 计算 6=(XIW)TX?y 
作业 : 下 载 数据 ， 编 制 最 小 二 乘法 程序 ， 分 别 计算 m=3~7 时 的 b 和 测量 值 ， 并 
月 分 别 计算 q+d> +…+d; 以 及 原始 y 和 计算 得 到 的 y 的 相关 系数 R。 


站 
NS 




















相关 系数 
两 样本 的 相关 系数 定义 为 


> — XX 一 元) 








1 ,一 


[Ee x) | 


式 中 元 和 元 分 别 为 第 ?7 个 和 第 7 个 样本 的 均值 六, 越 接近 于 1， 相 似 性 越 大 。 
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第 六 章 模式 识别 


模式 识别 


6.1.1 概述 








模式 识别 方法 最 早 是 在 20 世纪 50 年 代 早 期 提出 的 ，60-80 年 
化 学 学 科 在 此 期 间 发 表 了 数 百 篇 文章 。 到 20 世纪 80 纤 
种 非常 成 熟 的 多 元 分 析 方 法 。 


必用。 



























































E 代 在 各 个 学 科 得 到 广泛 的 


FE 代 ， 模 式 识 别 方法 发 展 成 为 一 


模式 识别 的 数学 含义 是 指 : 假定 样本 集 由 n 个 观测 对 和 象 即 样本 组 成 , 每 个 样本 用 p 个 观 
测 变量 〈 在 化 学 模式 识别 中 观测 变量 常 称 为 特征 、 指 标 或 者 参量 等 ) 进行 描述 ,构成 数据 矩 
阵 Xxp。 这 个 数据 阵 中 ， 包 含有 两 方面 的 信息 : 一 是 样 
间 的 信息 。 因 而 我 们 要 处 理 的 关系 有 3 个 : 即 变 量 与 变量 之 间 ; 样本 与 样本 之 间 ; 样本 与 变 


量 之 间 的 关系 。 从 几何 角度 看 ,样本 集 可 以 用 在 1 
空间 或 特征 空间 〈 也 称 模式 空间 ) 中 的 点 集 来 表示 ， 一 个 样本 对 应 于 一 个 点 。 模 式 识 别 理论 
Pp 个 特征 包含 了 所 讨论 样本 性 质 的 全 部 信息 ， 代 表 样 本 集 的 点 集 在 特征 或 模式 空间 
的 分 布 是 “ 物 以 类 聚 ” 的 ， 即 不 同性 质 的 样本 点 在 变量 空间 的 不 同 区 域 〈 或 称 不 同 模式 ) 中 ， 





认为 ， 






























































本 性 质 的 信 ， 












































区， 一 是 变量 或 特征 之 


观测 变量 或 特征 作 坐 标 轴 构成 的 p 维 变 量 


















































相同 性 质 的 样本 点 聚集 在 一 个 区 域 中 。 所 谓 模式 是 指 具有 
比如 一 个 聚集 区 域 就 可 称 为 一 个 模式 )， 模 式 识 别 的 任务 就 


些 特 生 


实际 上 ， 我 们 时 时 处 处 都 在 使 用 模式 识别 ， 如 我 们 






















































































某 种 共同 性 质 的 一 类 现象 的 集合 ， 
是 要 找 出 这 种 分 布 〈 集 合 ) 的 某 
FE, 进而 根据 这 些 特征 预报 另 一 些 未 知 样本 的 性 质 , 比如 判别 未 知 样本 属于 哪 一 个 模式 。 












































散 碗 通过 声音 的 高 低 来 判别 碗 是 否 有 裂缝 ,中 














辨别 化 合 物 等 。 在 低 维 空间 如 二 维和 三 维 名 
间 则 必须 借助 数学 的 方法 才能 够 对 模式 进行 区 分 。 模 式 识别 属 了 
算 机 来 揭示 隐 含 于 





























物 内 部 规律 的 一 种 综合 技术 。 








6.1.2 ”模式 识别 的 主要 步骤 











模式 识别 的 主要 步骤 包括 数据 预 处 理 和 模式 识别 方 没 





























] 眼 睛 可 以 区 分 道路 、 房 屋 、 汽 车 ， 


医 凭 舌 蔡 和 脉搏 进行 诊断 , 化 学 家 通过 谱 


图 来 

















分 析 两 部 分 , 其 


多 元 分 析 方 法 ， 

















bP 预 处 理 包括 














5 间 ， 人 类 对 模式 的 识别 能 力 最 强 , 但 是 在 高 维 空 





它 是 借助 计 


数据 


42 


第 六 章 模式 识别 











预 处 理 , 特征 提取 、 选 择 和 压缩 ， 相 似 系数 和 距离 的 计算 等 。 模 式 识别 方法 主要 包括 有 管理 
方法 和 无 管理 方法 两 种 。 
1、 数 据 预 处 理 
(1) 数据 预 处 理 方法 
模式 识别 中 ， 所 有 分 类 和 识别 过 程 都 基于 样本 数据 矩阵 Xxjb。 数 据 集 Xx 直接 影响 
计算 结果 , 决定 判别 成 败 。 数 据 集 的 质量 是 由 于 描述 样本 的 各 个 特征 或 变量 的 类 型 差别 引起 
的 。 如 有 的 为 谱 图 数据 ， 有 的 为 化 合 物 的 物理 化 学 性 质 或 结构 方面 的 信息 ， 数据 类 间 不 仅 量 
纲 不 一 样 , 其 绝对 值 大 小 有 时 会 有 儿 个 数量 级 的 差别 。 通过 数据 的 预 处 理 可 以 改善 数据 的 质 
量 。 如 数据 标准 化 对 原始 数据 进行 预 处 理 。 
数据 标准 化 处 理 〈data autoscaling) 是 将 原样 本 数据 矩阵 中 各 元 素 减 去 该 列 元 素 的 均值 
后 再 除去 所 在 列 元 素 的 标准 差 的 操作 。 变 换 公式 为 : 


































































































































































































卫 

















式 | 





n n 


-_ 1 1 2 
ee Xj ， S$;= 2 E 


i=l 1 用 一 上 jl 
S,，X， 分别 是 数据 矩阵 义 的 第 j 列 元 素 的 标准 偏差 和 平均 值 。 经 过 标准 化 预 处 理 的 变量 


J 4 





















































(一 列 元 素 ) 权重 相同 ， 均 值 为 0， 方差 或 标准 差 都 为 1。 
数据 预 处 理 的 方法 还 有 中 心 化 变换 (data centralization )、 对 数 变换 Catural logarithm- 




















transformation) 和 数据 正规 化 变换 (data normalization transformation ) 等 。 
(2) 特征 提取 和 选择 

在 模式 识别 中 , 特征 提取 是 最 关键 的 一 步 ， 用 作 特 征 的 主要 是 化 学 量 测 数据 ,一般 需 村 
据 化 学 量 测 实际 和 经 验 加 以 选择 , 如 烟草 近 红外 数据 中 量 测 的 尼古丁 、 总 氮 、 总 糖 、 还 原 糖 、 
气 、 印 ， 烟 气 中 的 烟 厌 、 水 分 、 焦 油 和 成 品 烟 物 理 指 标 数 据 中 的 吸 阻 ， 单 文 重量 ， 圆 周 等 特 
征 。 

在 模式 识别 中 应 用 较 广 的 特征 选择 方法 有 偏差 权重 法 、Fisher 比率 法 、 概 率 比 率 法 、 逐 
步 判 断 法 、 学 习 机 法 和 等 方法 。 
2、 模 式 识别 方法 

模式 识别 方法 可 分 为 有 管理 方法 ， 无 管理 方法 两 类 。 其 中 , 在 有 管理 方法 中 需要 有 一 训 
































































































































~ 





















































43 

















第 六 章 模式 识别 





练 集 。 如 对 于 两 类 的 情况 ， 在 训练 集中 ， 有 一 些 样本 属于 A 类 ， 另 外 一 些 样本 属于 B 类 ， 
然后 教 给 计算 机 , 计算 机 经 过 训练 之 后 则 可 识别 未 知 样本 . 有 管理 模式 识别 包括 : 线性 判别 ， 



































逐步 判别 分 析 ，KNN 方法 ，SIMCA 方法 ， 
类 别 关 系 的 对 象 进行 指导 无 管理 方法 包括 : 





六 


6.2 主 成 分 分 析 法 


6.2.1 概述 


等 ， 以 下 重点 介绍 一 种 无 管理 方法 : 主 成 分 分 析 法 。 

















神经 网 络 等 ;无 管理 模式 识别 方法 则 不 需要 已 知 


最 小 生成 树 ， 聚 类 分 析 ， 线 性 投影 ， 非 线性 映射 


























主 成 分 分 析 (principal component analysis，PCA ) 是 一 种 最 古老 的 多 元 统计 分 析 技 术 。 


Pearcon 于 1901 年 首次 引入 主 成 分 分 析 的 概念 ， Hotelling 在 20 世纪 30 年 代 对 主 成 分 分 析 








进行 了 发 展 。 如 其 他 多 元 统计 分 析 一 样 ， 在 计算 机 出 现 之 前 ， 主 成 分 分 析 的 应 用 面 很 窗 。 当 


计算 机 出 现 后 ， 主 成 分 分 析 得 以 广泛 地 应 月 
， 儿 乎 都 含有 主 成 分 分 析 。 

















6.2.2 原理 























昌 ， 特 别 是 现在 , 在 计算 机 的 多 元 统计 分 析 程 序 包 





主 成 分 分 析 法 是 指 在 特征 之 间 存 在 相关 关系 时 , 可 以 通过 原始 特征 的 线性 组 合 , 构成 为 
数 较 少 的 不 相关 的 新 特征 代替 原始 特征 ， 而 每 个 新 特征 都 含有 尽量 多 的 原始 特征 的 信息 。 新 
特征 叫做 原始 特征 的 主 成 分 。 主 成 分 分 析 在 多 元 统计 中 主要 是 用 作 消 除 特 征 间 相 关 性 , 是 简 
化 多 元 统计 问题 的 一 种 有 效 的 方法 ， 也 可 以 作为 一 种 简单 的 模式 识别 方法 。 当 取 主 成 分 为 2 
时 , 即将 原始 多 个 特征 线性 组 成 得 到 两 个 新 变量 时 , 这 相当 于 将 原始 高 维 空间 中 各 模式 点 投 
影 到 二 维 平面 上 ， 然 后 利用 二 维 平 面 上 各 模式 点 的 分 布 进行 分 类 和 判别 。 

主 成 分 分 析 法 先 对 量 测 矩 阵 怀 直接 进行 分 解 ， 对 怀 矩 阵 进 行 直接 分 解 在 数学 上 有 几 种 












































6.2.3 SVD 分 解 





对 一 个 样本 的 测量 将 产生 一 个 向 量 Xx; 




















































































































算法 。 在 化 学 计量 学 中 采用 的 方法 为 非 线 性 迭代 偏 最 小 二 乘法 (NIPALS) 和 奇异 值 分 解 方 
法 (SVD)，SVD 算法 也 可 以 用 来 求解 大 多 数 的 线性 最 小 二 乘 方 问题 。 
































一 (5 ， 其 中 每 一 个 元 素 代 表 一 个 
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量变 量 
的 样本 都 进 


测 





在 这 个 


=USV'， 则 得 到 三 个 矩阵 U，S，V。 


U 和 斑 分别 是 标准 丈 


特征 矢量 ， 





是 ， 则 在 矩阵 51 
XX 的 全 部 化 学 信息 。 





(在 本 文 所 处 理 的 数据 ! 


行 测量 





矩阵 苦 中 , 每 




















[x 


一 行 代表 一 个 样本 的 测 








过 























， 前 





误差 并 丢弃 。 





SVD 法 是 基于 下 面 的 线性 代数 定理 ; 任意 mxn 的 矩阵 X， 
一 个 mxn 的 元 素 均 为 J 
个 nxn 正 交 阵 严 的 转 置 矩阵 的 乘积 形式 。 不 管 矩 阵 


可 以 写成 一 





个 mxn 的 列 了 


正 交 和 标准 行 正 交 久 
在 多 元 统计 的 主 成 分 分 析 中 ， 一 般 称 为 得 分 入 





， 一 个 元 素 就 代表 谱 
， 则 将 得 到 一 个 样本 量 测 矩 阵 ; 


Xn 2 
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图 ! 
Xi Xin 
Xj Xo 
Xi Xi 
Ni Nn | 


三 


里 





其 中 ，S 是 对 角 和 矩阵 ， 

















个 特征 值 


会 显 





著 大 于 











E 交 距 阵 UU， 











其 余 的 特征 值 





E 阵 ， 收 集 了 这 些 特征 值 所 对 
E 阵 和 载荷 矩阵 。 


它 收 集 了 久 








应 的 列 特征 矢量 和 行 
如 果 体系 的 组 分 数 


(6.1) 


量 。 对 量 测 和 矩阵 X 进行 SVD 分解, 即 : 


E 阵 X 的 特征 值 。 











， 它 们 已 











包括 了 














上 . 未 且 


一 般 只 要 取 前 磊 个 特征 值 和 特征 矢量 作为 主 成 分 ， 























征 全 十 


以 下 为 对 较 简 单 的 对 称 矩 阵 进行 SVD 分 解 的 示例 : 








样本 量 测 入 


的 一 个 峰 的 峰 面积 )。 对 一 系列 














FE 


阵 




















余部 分 即 可 以 看 成 





行 数 m 大 于 或 等 于 列 数 n， 


E 数 或 零 的 对 角 和 矩阵 S， 以 及 一 


奇异 的 ， 这 个 分 解 儿 乎 是 唯一 的 。 


1 2 1 10 6 1 | [28.86 
例 : 4=|2 3 2 "=4 ee 17 九 |=| 0.14 
1 2 1 1 0 
0.454 0.542 -0.707 
ui =V=|0.766| u,=v,=|-0. FE 1 = VY, = 
0.454 0.542 -0.707 
15.37 0 
A=| 0 -0.372 0 0 
| 0 0 0 
[15.37 0 0|10.454 1.11 1.87 1.11 
A~| 0 0 0|0.766|[0.454 0.766 0.454]=|1.87 3.15 1.87 
| 0 0 0|0.454 1.11 1.87 1.11 
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6.2.4 主 成 分 分 析 的 数学 与 几何 的 意义 


主 成 分 分 析 的 数学 与 几何 的 意义 如 





图 6.1: 











































































































天。 如 果 取出 得 分 
出 每 一 个 样本 所 代表 


一 起 。 本 点 距离 越 远 ， 则 




















在 上 图 





























样 


























而 


的 点 ， 则 可 以 得 到 投影 分 析 








矩阵 上 的 第 一 列 和 第 二 列 ， 分 别 作为 PC1 轴 
。 在 投影 图 


PC1 
人 O 
QO 
OO 
O 
3 全 
PC2 

图 6.1 主 成 分 分 析 的 数学 和 几何 意义 

中 ， 左 边 是 样本 的 量 测算 阵 半 ， 右 边 依次 为 SVD 分 解 得 





























表示 两 个 样本 越 不 相 





以 。 根 据 这 样 的 标准 





























间 的 样本 测量 数据 在 二 维 的 平面 图 上 展示 出 来 , 同时 




















县 ， 又 提 作 


论 沿 着 如 轴 方 向 还 是 志 轴 方向 ,都 有 较 大 的 离散 性 
当 只 考虑 其 中 一 个 变量 时 ， 原 始 数据 中 的 信息 将 会 
下 


t 了 样本 分 类 情况 的 





观 表示 。 其 数学 解释 如 下 : 

















设 有 了 个 样品 ， 每 个 样品 有 两 个 观测 变量 x1，x 二 维 

































































最 大 程 


和 PC2 轴 

















平面 的 散 点 





区 











f=xcosOtx sin0 f=X,cosO—xsing 


的 多 








o 


到 的 三 个 矩阵 UV，5， 
E 标 ， 在 图 
上 ， 同 一 类 样本 的 点 会 聚集 
， 就 可 以 将 一 
度 地 保留 了 原 有 的 样本 信 


上 描 
在 
系列 处 在 














7 个 样本 点 ， 无 





FE, 其 离散 程度 可 以 用 x 或 x 的 方差 表示 。 
较 大 的 损失 。 若 将 4 








E 标 轴 旋 转 一 
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f coSO sinO \(n 
万 -SinO cosO)\x, 
且 忌 是正 交 距 阵 ， 则 n 个 样品 在 万 轴 的 离散 程度 最 大 〈 方 差 最 大 )， 变 量 九 代表 了 原 
始 数据 的 绝 大 部 分 信息 ， 即 使 不 考虑 户 ， 信 息 损 失 也 不 多 。 而 且 .万 , 户 不 相关 。 只 考虑 万 时 ， 
二 维 降 为 一 维 。 
1、 主 成 分 的 推导 
定理 1. 若 4 是 nn 阶 实 对 称 阵 ， 则 一 定 可 以 找到 正 交 阵 VU， 使 





即 : 

































































CT4U=aiag(0 0)， 其 中 和, 帮 …, 娩 是 4 的 特征 根 。 














定理 2. 若 上 述 4 的 特征 根 所 对 应 的 单位 特征 向 量 为 ww).…,4， 记 U = (0 )， 


























则 不 同 特征 根 对 应 的 特征 向 量 正 交 ， 即 uu, =0 。 

















定理 3. 设 袜 的 特征 根 为 和 > 克 > .> 和 > 0 ， 则 对 应 的 标准 正 交 基 为 ,4,1 。 





2、 主 成 分 的 导出 





设 和 =az+az+ + =a xXx, 找到 系数 使 Var(f) (f 的 方差 ) 最 大 ， 则 




















Var( 有 = 和，a = 二 u， 所 以 ，f =wufx， 所 =WwxX， 依 此 类 推 ， 且 , 户 ,… 不 相关 。 称 三 





为 


注 
由 











n p 
主 成 分 , 为 第 二 主 成 分 , .…..……。 而 和 4/ 》 入 4 为 第 个 主 成 份 的 贡献 率 》 4 / > 
k=1 i 





为 前 乙 个 主 成 分 的 累计 贡献 率 。 若 p 个 主 成 分 的 累计 页 献 率 超过 85% 或 更 大 ， 通 常 可 认为 
前 p 个 主 成 分 基本 包含 了 原来 变量 的 信息 。 
3、 样 本 主 成 分 的 导出 

设 有 也 个 样品 ,2 个 变量 ， 得 到 的 原始 数据 矩阵 为 公式 3.3.1 中 所 列 矩 阵 , 经 过 SVD 分 
解 之 后 ，U 矩阵 中 的 每 一 列 就 代表 一 个 主 成 分 。 





















































6.2.5 主 成 分 分 析 的 基本 步骤 





























先 对 数据 矩阵 怀 进行 奇异 值 分解 ($SVD)， 这 样 得 到 三 个 矩阵 U，S，VV， 即 : 
X=SVD(U,S,V) 。 


取 和 矩阵 上 的 第 一 列 和 第 二 列 ， 即 ， 所 含 信息 量 最 大 的 两 个 主 成 分 ， 进 行 投影 。 第 一 列 
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对 应 怀 轴 





AAA 
f= 
2 














二 列 对 应 了 轴 














的 坐标 ， 














所 对 应 的 样 


会 在 投影 区 





本 。 
在 投影 图 上 ， 


上 呈 聚 集 的 状态 。 




















氏 











正常 情况 下 相同 类 型 的 样本 点 间 的 昌 
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坐标 。 每 一 行 就 是 一 个 点 ， 对 应 于 数据 矩阵 怀 的 同行 





[SI 


离 会 比较 接近 。 即 : 同类 型 样本 点 





6.2.6 主 成 分 分 析 的 Matlab 程序 段 


[U， 


S, V|= svd(Y); 


lImd=diag(S); 
n=size(lmd, 1); 


allsumlmd = 0; 
for k= 1:n 


end 


allsumlmd = allsumlmd + lmd(k)*lmd(k); 


for k=1:n-1 


sumlmd=0; 

for j=(k+1):n 
sumlmd=sumlmd+lmd()*lmd(); 

end 

RSD(k,1)=sumlmd/(nw*(nt-k)); 

RSD(k,1)=sqrt(RSD(k,1)); 


value 


RSD(k,2)=1e6*RSD(k,1)/((nt-k)*(nt-k)); 
RSD(k,3)=lmd(k)^2*(nt-k)/sumlmd; 


Fisher variance deviation 


CO 


end 


l. 


RSD(k,4)=lmd(k)Imd(k+1); 
secutive eigenvalue 
RSD(k,5)=lmd(k)*lmd(k)/allsumlmd; 











将 标准 样本 矩阵 Y 采用 奇异 值 分 解法 


























和 对 角 和 矩阵 $， 其 中 $S 收集 了 矩阵 Y， 



































根据 对 角 和 矩阵 S 中 的 特征 值 
(CND )，Fish 方差 比 等 表征 


























nc=3; 
U=U(:,]1:nce); 
S=S(l:nc,li:nc); 
V=V(.,1:nc); 
T=U*S; 
P=V'; 
Y1=T*P; 


进行 计算 ， 


和 矩阵 Y 中 主 成 分 信息 的 标准 。 


% {NOTE} 


%1st column of RSD is the real RSD 


%2nd column of RSD is the IND value 
%3rd column of RSD is the ratio of 


%4th column of RSD is the ratio of 








(SVD) 进行 分 解 ， 得 





到 得 分 矩阵 U、 载 荷 矩 阵 V 











的 特征 值 。 























分 别 得 


因子 指示 函数 





到 剩余 标准 偏差 (RE)， 
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Err = Y-Y!1; 
3. 根据 各 种 RSD 


列 和 前 nc 行 、 





4. 计算 去 除 前 nc 个 主 成 分 数 的 样本 信息 














的 计算 方法 综合 


前 nc 列 。 











Cn 











E 阵 Y1 后 的 误差 入 


6.2.7 主 成 分 分 析 的 应 用 示例 


1、 烟 草 化 学 成 分 近 红 外 数据 的 主 成 分 分 析 


(1) 原始 数据 
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E 阵 Err。 





和 定 的 主 成 分 数 nc， 分 别 对 U、V 和 S 取 前 nc 列 ， 前 mc 


随机 选取 了 烟 气 化 学 成 分 数据 、 物 理 指标 数据 各 10 个 共 20 个 数据 作为 原始 样本 数据 




















































































































( 表 6.1)， 以 及 烟叶 化 学 成 分 数据 各 10 个 共 20 个 数据 作为 原始 样本 数据 ( 表 6.2)。 其 中 1 
一 10 号 样本 为 H 牌 卷烟 ，11 一 20 号 为 Z 有 牌 卷烟 。 
表 6.1 分 类 原始 数据 样本 
尼古丁 总 糖 还 原 糖 总 氮 钾 氧 
1.87 16.04 14.50 1.99 2.15 0.68 
1.98 15.64 14.49 2.03 2.08 0.66 
1.85 17.52 15.61 1.94 2.07 0.64 
2.10 17.31 15.18 2.04 2.01 0.65 
1.99 18.01 15.91 1.99 2.16 0.67 
1.97 17.97 15.82 1.97 2.22 0.65 
2.14 14.78 13.48 2.09 1.97 0.69 
2.06 17.50 16.03 2.03 1.97 0.66 
1.96 15.50 13.89 2.01 1.96 0.67 
2.08 17.50 15.40 2.05 1.96 0.66 
2.20 20.73 18.55 1.97 1.88 0.46 
2.28 21.80 19.19 2.03 1.82 0.48 
2.27 22.33 19.23 2.04 1.86 0.47 
2.26 22.46 19.71 2.00 1.84 0.47 
2.28 21.88 19.23 2.00 1.93 0.47 
2.21 22.31 19.47 1.98 1.82 0.47 
2.24 22.37 19.16 2.00 1.83 0.43 
2.20 22.43 19.24 1.98 1.81 0.49 
2.25 23.01 19.65 1.99 1.87 0.41 
2.18 22.90 19.90 1.97 1.82 0.45 
(2) 数据 预 处 理 
采用 数据 标准 化 方法 处 理 后 的 数据 样本 见 表 6.2 
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表 6.2 预 处 理 分 类 数据 样本 
























































尼古丁 总 糖 还 原 糖 总 毛 钾 氧 
-1.7687 -1.1766 -1.1634 -0.4265 1.5554 1.1185 
-0.9858 -1.3120 -1.1677 0.7109 1.0069 0.9297 
-1.9111 -0.6732 -0.6819 -1.8482 0.9285 0.7410 
-0.1317 -0.7447 -0.8684 0.9952 0.4584 0.8354 
-0.9146 -0.5066 -0.5518 -0.4265 1.6337 1.0241 
-1.0370 -0.5202 -0.5908 -0.9952 2.1039 0.8354 
0.1530 -1.6051 -1.0038 2.4169 0.1450 1.2129 
-0.4164 -0.6800 -0.4997 0.7109 0.1450 0.9297 
-1.1281 -1.3602 -1.4280 0.1422 0.0666 1.0241 
-0.2740 -0.6800 -0.7730 1.2795 0.0666 0.9297 
0.5801 0.4185 0.5934 -0.9952 -0.5603 -0.9581 
1.1495 0.7824 0.8710 0.7109 -1.0304 -0.7693 
1.0783 0.9627 0.8884 0.9952 -0.7170 -0.8637 
1.0071 1.0069 1.0966 -0.1422 -0.8737 -0.8637 
1.1495 0.8096 0.8884 -0.1422 -0.1685 -0.8637 
0.6513 0.9559 0.9925 -0.7109 -1.0304 -0.8637 
0.8648 0.9763 0.8580 -0.1422 -0.9520 -1.2412 
0.5801 0.9967 0.8927 -0.7109 -1.1088 -0.0749 
0.9360 1.1939 1.0705 -0.4265 -0.6386 -1.4300 
0.4377 1.1565 1.1790 -0.9952 -1.0304 -1.0525 
(3) 主 成 分 数 的 确定 
用 主 成 分 分 析 法 处 理 后 ， 由 算 阵 分 解 得 到 的 所 有 主 成 分 数据 如 下 : 
表 6.3 主 成 分 数据 

PC 入 和 /sum( 和) Se 

1 4. 4556 0.7426 0.7426 

2 1. 2587 0. 2098 0. 9524 

3 0. 2079 0.0346 0. 9870 

4 0. 0464 0. 0077 0. 9948 

5 0. 0267 0. 0045 0.9992 

6 0. 0048 0. 0008 1. 0000 








中 ， 累 计 方差 Se 表示 4d 个 特征 值 与 所 有 p 个 特征 值 加 和 的 比值 。 


> 





NN 
4 


Na 


外 
一 





Se” = 


信人 
人 


外 
pt 








从 表 6.3 中 可 知 ， 使 用 两 个 主 成 分 就 可 以 解释 95.24% 的 数据 方差 ， 且 第 二 个 主 成 分 的 
特征 值 大 于 1， 根 据 方差 判 据 和 特征 值 判 据 ， 可 以 确定 烟草 化 学 成 分 的 数据 有 两 个 主 成 分 。 
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(4) 结果 和 讨论 
根据 主 成 分 分 





A 
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析 后 得 到 的 得 分 矩阵 如 图 6.2 所 示 : 

















0.6 
7 
0.4 - 
d0 
| 13®12 
。 i: 4 (17) 
2 
> e 9 15。 W's 
A 11% 18e4 
-0.2 上 1 5 16 甸 
6 
-0.4 下 
3 
0.6 | 
-0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 











图 6.2 烟草 化 学 成 分 数据 的 主 成 分 得 分 图 

















由 于 已 确定 两 个 主 成 分 , 所 以 主 成 分 得 分 图 以 二 维 图 表示 。 由 得 分 图 可 以 看 出 , 样本 数 



































据 明显 的 聚 为 两 类 ， 且 每 个 样本 分 类 结果 都 正确 ，H 有 牧 卷 烟 的 10 个 烟草 样本 集中 在 图 1 的 















































左 侧 , Z 牌 卷烟 的 10 个 烟草 样本 集中 在 图 1 的 右 侧 。H 牌 卷烟 的 10 个 烟草 样本 明显 比 乙 牌 





























卷烟 的 10 个 烟草 样本 更 离散 ， 说 明 就 这 20 个 样本 而 言 ，Z 牌 卷烟 比 了 牌 卷烟 质量 更 稳定 。 
6.3 偏 最 小 二 乘 回 归 
6.3.1 概述 


偏 最 小 二 乘 回 归 (Partial Least Square Regression, PLSR ) 是 一 种 在 工程 技术 与 经 济 和 


的 分 析 预 测 、 多 元 





? 





理 








下 














加 归 分 析 和 建 模 中 有 着 广泛 应 用 的 新 的 回归 分 析 方 法 。PLS 回归 分 析 方 





























法 由 Wold 和 Alban 于 1966 年 首先 提出 。 最 早起 源 于 社会 科学 (1966 年 ， 特 别 是 经 济 学 领 

















域 ), 但 引起 广泛 重视 则 是 在 1986 年 以 后 , 之 后 便 在 化 学 计量 学 , 统计 学 等 领域 较 多 地 使 用 
起 来 。 
PLSR 提供 了 一 种 多 对 多 线性 回归 建 模 的 方法 . 特别 当 变 量 的 个 数 很 多 ， 且 都 存在 多 重 
相关 性 , 而 观测 数据 的 数量 又 较 少 时 . 用 偏 最 小 二 乘 回 归 建 立 的 模型 具有 传统 的 经 典 回归 分 







































































析 等 方法 所 没有 的 优点 。PLSR 方法 中 用 的 是 蔡 潜 变量 ， 其 数学 基础 为 主 成 分 分 析 ， 因 此 也 














有 人 说 ， 偶 最 小 二 乘 回 归 守 多 元 线性 回归 分 析 十 典型 相关 分 析 十 主 成 分 分 析 。 
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6.3.2 原理 















































偏 最 小 二 乘 回归 的 目的 是 揭示 变量 空间 里 寻找 某 些 线形 组 合 , 以 能 更 好 地 解释 反应 变量 
的 变异 信息 。 该 方法 同时 从 解释 变量 与 反应 变量 中 提取 两 组 主 成 分 , 它们 分 别 是 解释 变量 与 











反应 变量 的 线性 组 合 ， 满 足以 下 两 个 条 件 : (D 两 组 潜 变 量 分 别 最 大 限度 地 承载 解释 变量 或 




















反应 变量 的 变异 信息 ; @ 对 应 的 解释 潜 变 量 与 反应 潜 变 量 之 间 协 方差 最 大 化 . 

偏 最 小 二 乘 回归 与 传统 多 元 线性 回归 模型 相 比 , 偏 最 小 二 乘 回归 的 特点 是 :(1) 能 够 在 
自 变 量 存在 严重 多 重 相关 性 的 条 件 下 进行 回归 建 模 ; 2) 允许 在 样本 点 个 数 少 于 变量 个 数 的 
条 件 下 进行 回归 建 横 ; 〈3 ) 偏 最 小 二 乘 回归 在 最 终 模 型 中 将 包含 原 有 的 所 有 





















































最 小 二 乘 回归 模型 更 易于 辨识 系统 信息 与 噪声 〈 甚 至 一 些 非 随机 性 的 噪声 ); (5) 在 1 














二 乘 回归 模型 中 ， 每 一 个 自 变 量 的 回归 系数 将 更 容易 解释 。 








与 其 他 建 模 方法 相 比 ， 如 神经 网 络 等 ，PLS 具有 人 简 
估计 时 ， 无 论 是 采用 迭代 法 ， 还 是 SVD 法 ， 一 般 只 需 几 步 就 可 得 到 参数 估计 .预测 未 知 样 
本 时 ， 计 算 量 很 小 ， 精 度 也 较 高 . 然而 ，PLS 一 般 用 于 建立 预测 回归 方 条 




































































布 特性 的 确定 无 能 为 力 ， 它 所 给 出 解释 变量 与 反应 变量 之 间 结 构 关系 过 于 抽象 ， 难 以 型 














只 能 作 定性 分 析 ， 无 法 确定 它们 之 间 准 确 的 数量 关系 。 

















FE 稳定、 计算 量 小 等 优点 . 模型 参数 


FE， 









































X=IP+E 
以 及 


Y=UO'+F 











其 中 工科 的 矩阵 元 一 一 X 和 YY 的 得 分 ; 


P 和 Q 的 矩阵 元 一 一 X 和 YY 的 得 分 ; 




















E 和 一 一 运用 偏 最 小 二 乘 模 型 法 去 拟 合 X 和 YY 所 引起 的 误差 。 





在 理想 的 情况 下 ，X 中 误差 的 来 源 和 YY 中 的 误差 来 源 完 全 相同 ， 即 影响 X 与 Y 的 因素 
因而 ! 寺 4 ， 但 


相同 。 但 实际 上 ， X 中 的 误差 与 Y 中 的 误差 并 不 相关 ， 
于 确定 因子 时 ，X 和 YY 具有 如 下 关系 























u=bt+e 


式 中 bb 所 表征 的 就 是 u 和 t 的 内 在 关系 。 




















偏 最 小 二 乘 与 主 成 分 分 析 很 相似 ， 其 差别 在 于 描述 变量 Y 中 因子 的 同时 也 月 
量 X。 为 了 实现 这 一 点 ， 在 数学 上 是 以 矩阵 Y 的 列 去 参与 矩阵 X 因子 的 计算 ， 数学 模型 为 ; 














当 





















































6.3.3 算法 


1. 建 模 
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首先 对 X 和 Y 阵 进行 标准 化 处 理 ， 对 于 每 一 个 主 成 分 : 











Q) 仿 Wiar > 
对 于 XX 


@OWw= UX/u'u 








@) Wew = Wa 中 ww 
@!= XWw/w w 


对 于 了 


加 94=1/H 











© Gnew 二 qo /| Go 
OUL=I919 9 


收敛 测试 : 











@@ 将 步 又 4 中 1 与 前 一 次 迭代 所 得 的 { 相 比较 ， 若 二 者 相等 〈 包 括 一定 的 舍 入 误差 ) 




















， 到 9， 和 否则 到 2 ( 若 立 中 仅 有 一 个 变量 ， 则 跳 过 步骤 5-8， 并 置 9=1) 





@P'=7X/it 








Pnew= Po Np'n 














DD fe = f'n / Po 


i 1 
四 new 二 W ol lp old 








BD=ut/1't 
®t = Ei1-t,p', 


Bf = 1-—b,t,q"h 

















步骤 2、4 和 9 以 及 Y 在 步骤 $ 和 7 分 别 














929 和 w? 都 用 于 预测 ;tt 和 u 用 于 分 类 ) 




















[它们 的 残 差 Eh 和 Fh 代替 )。 








之 后 ， 回 到 步 又 1， 去 进行 下 一 个 主 成 分 的 运算 〈 注 : 当 第 一 个 主 成 分 运算 之 后 ，X 在 





53 


第 六 章 模式 识别 





2. 预报 
数学 模型 建立 起 来 之 后 目的 用 于 未 知 样本 预报 。 步 又 为 : 
QD 如 校正 部 分 ， 将 六 及 YY 标准 化 (此 时 试 样 数 为 nl 而 不 是 n) 
































@h=0,Y=» (均值 ) 

















@h=h+l 
ft = XWw, 
y= +Db,f,q' 


X=x-ip', 





若 h 大 于 主 成 分 数 ， 到 步骤 5， 否则 到 步骤 3 














名 得 到 的 Y 为 已 经 标准 化 的 结果 ， 因 此 按照 标准 化 步骤 地 相反 操作 ， 将 之 恢复 到 原始 坐标 











6.3.4 主 成 分 数 的 判定 


若 X 和 Y 间 关 系 符 合 线形 模型 ， 则 描述 模型 的 主 成 分 数 应 与 模型 的 维 数 相等 。 


























Sr- 
邹 
5 


主 成 分 











数 是 PLS 模型 的 重要 性 质 。 由 于 存在 量 测 误差 ， 要 精确 确定 未 知 体系 中 的 主 成 分 是 有 一 定 
难度 的 。 为 解决 这 一 问题 ， 提 出 多 种 方法 ， 一 般 分 为 两 类 : 基于 量 测 误差 大 小 已 知 的 方法 或 


















































根据 计算 结果 做 出 近似 判断 。 
1. 量 测 误差 大 小 已 知 的 方法 











这 些 方法 的 基点 是 假设 量 测 误差 已 知 ， 然 后 与 算出 的 量 测 数 据 和 矩阵 X 的 特征 值 ， 








根据 












































内 ， 即 可 据 此 确定 主 成 分 数 。 该 法 由 Malinowski 提出 ， 见 下 式 ; 


























某 一 原则 取 某 个 主 成 分 数 所 求 出 的 误差 进行 比较 ， 如 算出 的 真实 误差 在 已 知 量 测 误差 范围 


m(n—a)(RSD)’ -》 y (ci = 


i=] j=d+l j=d+l 


经 





新 排列 可 得 : 





RE = RSD = > /[m(n—a)] 


J=d+l 








具体 方法 为 , 先 把 特征 值 最 大 所 对 应 的 特征 向 量 看 成 主因 子 轴 ， 


















































n 为 样本 数 ，m 为 变量 数 


其 余 的 都 作为 次 因 





子 轴 ， 


按照 上 式 计算 RSD， 并 将 此 计算 值 与 已 知 的 量 测 误差 进行 比较 。 依 次 类 推 ， 直 至 RSD 与 已 
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知 量 测 误差 近似 相等 ， 























这 时 已 计算 过 的 特征 向 
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kK 





子 数 的 函数 ， 随 着 主 成 分 数 的 变化 此 函数 值 在 茶 





St 
I 














此 种 方法 多 用 于 仪器 误差 已 知 的 波谱 解析 当中 。 
2. 量 测 误差 大 小 未 知 的 方法 

主要 根据 一 些 经 验 函 数 估 计 主 因子 数 .Malinowski 设计 的 因 
方差 比 就 是 这 种 方法 。 

因子 指示 函数 法 (IND): 通过 构造 因 
一 点 上 达到 最 小 ， 此 时 极 小 点 对 应 的 就 是 主 成 分 数 ， 定 义 如 下 : 

RE = RSD/(n—k)’ 

Fisher 方差 比 法 : 特征 值 代表 量 测 和 矩阵 的 方差 ， 所 以 它们 的 比值 

因此 Fisher 检验 的 判别 式 为 : 


















































Fn 有 =4 nA/ [全 

































































量 的 个 数 为 体系 中 所 含 独立 组 分 的 个 数 。 一 般 


子 指示 函数 法 IND 和 Fisher 














于 Fisher 方差 比 ， 

















































































































6.4 模式 识别 中 的 应 用 
6.4.1 概述 

模式 识别 方法 是 20 世纪 50 年 代 最 早 提出 ，60-80 年 代 在 各 个 学 科 得 到 广泛 应 用 , 在 80 
年 代 业 已 发 展 成 为 非常 成 熟 的 多 元 分 析 方 法 。 多 种 算法 被 用 于 与 模式 识别 领域 , 利用 偏 最 小 
二 乘 进行 聚 类 和 分 类 的 研究 涵盖 很 多 领域 ， 如 人 脸 识 别 、 疾 病 诊 断 、 波 谱 聚 类 等 。 
6.4.2 化 整 函数 

在 进行 聚 类 分 类 研究 当中 ， 利 用 PLS 直接 的 预报 结果 往往 不 是 与 类 别 标签 值 (如 两 类 
问题 ， 一 类 目标 值 设 为 0， 另 一 类 设 为 1) 直接 对 应 ， 因 为 预报 的 值 一 般 为 非 整 型 数值 。 通 
常用 来 化 整地 方法 有 两 种 ， 四 舍 五 入 法 以 及 寻找 最 大 距离 法 。 前 者 原理 非常 简单 ， 后 者 就 是 
将 预报 值 由 小 到 大 排序 , 然后 计算 相 邻 两 个 样本 的 预报 值 之 差 , 差 值 最 大 的 两 个 样本 作为 分 
界 点 ， 之 前 的 样本 为 一 类 ， 之 后 的 样本 为 男 外 一 类 。 
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6.4.3 应 用 实例 


1. 概述 
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-也 





限 性 。 因 为 具有 相似 的 组 织 病 弄 
有 少数 情况 下 ， 上 其 有 相似 形态 学 表征 的 癌症 

















年 ， 麻 省 理工 学 院 基 









































变 为 现实 。 


基因 蕊 片 就 是 利 月 

































































因 组 研究 中 心 的 Golub 等 人 在 Science 上 发 表 了 利 月 
性 白血病 分 类 并 发 现 新 的 白血病 亚 类 的 文章 , 首次 将 借助 基 















































比 ， 也 就 代表 该 基 





2. 数据 描述 












































期 的 癌症 分 类 研究 主要 以 肿瘤 的 形态 学 表征 为 基础 , 但 这 种 分 类 方法 存在 着 很 大 的 局 
E 学 表征 的 癌症 ， 临 床 症状 不 同 ， 对 于 治疗 的 反应 也 不 同 。 只 
FF 型 可 以 依照 不 同 的 发 病 机 理 进行 分 类 。1999 























因 表 达 图 








中 所 含有 的 相应 核酸 片段 的 量 成 正 














扫描 后 ， 所 获得 的 信息 经 专用 软 


























通过 运用 基因 芯片 ,获得 72 组 白血病 病人 样本 的 7129 个 基 








基因 已 片 技术 将 急 


谱 预 测 癌症 类 别 的 设想 








日 点 样机 等 机 械 闭 置 , 在 玻璃 等 文 持 物 表面 整齐 地 点 上 高 密度 的 、 成 干 
上 万 个 “点 ”， 每 个 “点 ”含有 可 与 一 种 基因 或 表达 序列 标签 (EST) 
探 针 。 由 于 芯片 上 有 序 地 排列 着 DNA 探 针 ， 
加 样品 后 ， 在 合适 的 条 名 


的 一 条 或 几 条 DN A 
因此 也 被 称 为 微 阵列 (Microarray)。 在 芯片 上 滴 
F 下 ,样品 中 含有 的 各 种 核酸 片段 就 与 相应 的 探 针 
段 上 已 标记 有 荧光 素 ， 激 发 后 产生 的 荧光 强度 就 与 样品 
因 的 表达 量 。 经 激光 共聚 焦 扫 描 仪 等 装置 
件 分 析 处 理 ， 即 可 获得 成 二 上 万 种 基因 的 表达 情况 。 正 因为 这 种 特点 ， 基 
当前 肿瘤 研究 的 热点 。 





杂交 。 由 于 核酸 片 








因 芯 片 技术 已 成 为 



































因 的 表达 水 平 值 , 借助 PLS 

















建 模 预 报 ， 实 现 了 从 分 子 水 平 对 两 种 不 同 的 白血病 : 急性 淋巴 白血病 (acute lymphoblastic 


leukemia，ALL) 和 急性 骨髓 白血病 (acute myeloid leukemia，AML )。 训 练 集 含 38 个 样本 ， 






































包括 27 个 ALL 样本 ，11 个 AML 样本 ， 测 试 集 含 34 个 样本 ，20 个 ALL 样本 ，14 个 AML 














样本 。 该 数据 集 可 从 如 下 链接 下 载 到 : 





http://www.broad.mit.edu/cgi-bin/cancer/publications/pub papercgi2mode=view&paper 1d=43 





处 理 流程 


也 主 成 分 数 确 员 





























数 的 确定 。 


@ 数 据 预 处 理 : 采 
小 值 ， 再 除 以 该 变量 ， 
































~ 











: 因为 基因 芒 片 数据 的 量 测 误差 未 知 ， 因 


























最 大 值 和 最 小 值 的 差 ， 其 体 见 下 式 : 
























































< 用 因子 指示 法 进行 主 成 分 





用 值 域 调整 法 进行 数据 预 处 理 ， 即 对 于 每 一 个 点 , 减 去 所 在 变量 的 最 
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Xiy = (Ky — Xjmin) /Xjmax — Xjmin) 
(@PLS 建 模 : 利用 38 个 训练 样本 进行 PLS 建 模 ， 计 算出 回归 系数 t，b，q，p。 
GPLS 预报 : 首先 利用 已 计算 的 回归 系数 ， 对 34 个 测试 集 样本 预报 出 实数 型 的 了 值 ， 
青 利 用 第 二 种 化 整 函 数 ， 将 其 校正 为 整数 型 的 类 别 值 (如 用 0 和 1 分 别 表示 不 同 的 两 类 )。 
3. 结果 讨论 
首先 对 数据 进行 IND 因子 指示 法 分 析 ， 计 算出 前 10 个 主 成 分 的 IND 值 ， 

















Pel Pc2 Pc3 Pc4 Pc5$ Pc6 Pc7 Pcg8 Pc9 Pcl0 








IND | 8.2193 | 8.0812 | 7.9297 | 7.77S8 | 7.8223 | 7.9289 | 8.1161 | 8.3958 | 8.7234 | 9.0967 






































可 以 看 到 在 主 成 分 数 为 4 的 时 候 IND 的 值 为 最 小 ， 因 此 ， 进 行 PLS 建 模 预报 时 主 成 分 
数 选 取 4。 
由 此 对 38 个 训练 样本 建 模 ， 自 预报 正确 率 达 100%， 预 报 的 实数 值 如 下 : 




















0.8 上- | 


0.6 上 J 


0.4| - 


0.2r 到 











-0.2 I 1 1 [ | | | 
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从 图 上 可 以 清楚 地 看 出 ， 前 27 个 ALL 样本 预报 值 在 -0.2 和 +0.2 之 间 ， 后 11 个 AML 
的 样本 预报 值 都 大 于 0.8。 可 见 PLS 对 训练 集 具有 良好 的 分 类 效果 。 
在 此 基础 上 用 建 模 时 计算 出 的 t b，q，p 对 34 个 样本 预报 ， 正 确 率 仍 为 100%， 见 下 
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0.8 上 J 


0.4[ ] 


0.2 上 | 











-0.2 [ [ [ [ L L 
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从 图 上 可 以 清楚 地 看 出 ， 前 20 个 ALL 样本 预报 值 在 -0.2 和 +0.45 之 间 ， 后 14 个 AML 
的 样本 预报 值 都 大 于 0.5。 因 此 由 PLS 建立 的 模型 具有 良好 的 分 类 预报 能 

再 进行 化 整 函数 的 处 理 ， 就 得 到 预期 的 整数 预报 值 ， 即 对 于 训练 样本 ， 前 27 个 样本 预 
报 值 为 0， 后 11 个 样本 预报 值 为 1， 对 于 测试 样本 ， 前 20 个 样本 预报 值 为 0， 后 14 个 样本 
预报 值 为 1。 
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7.1 引言 











第 七 章 遗传 算法 





第 七 章 遗传 算法 








大 自然 是 人 类 获得 灵感 的 源 录 。 几 百年 来 , 将 生物 界 所 提供 的 答案 应 用 于 实际 问题 求解 














已 被 证 明 是 一 个 成 功 












































的 方法 ， 并 且 已 形成 仿生 学 一 个 专门 的 学 科 。 遗 传 算法 〈Genetic 





























Algorithm，GA) 正 是 基于 这 种 思想 而 发 展 起 来 的 一 种 通用 的 问题 求解 方法 。 我 们 知道 ， 自 
然 界 所 提供 的 答案 是 经 过 漫长 的 自 适应 过 程 ( 成 为 进化 的 过 程 ) 而 获得 的 结果 。 我 们 也 可 以 
利用 这 一 过 程 本 身 来 解决 一 些 复杂 的 问题 。 遗 传 算法 是 一 类 借鉴 生物 界 的 进化 规律 〈 适 者 生 
存 ， 优 胜 劣 汰 的 进化 机 制 ) 演化 而 来 的 随机 化 搜索 方法 。 它 是 由 美国 的 村 Holland 教授 1975 




















年 首先 提出 ， 随 后 ，D 







































































ce Jong 和 TT. EE. Davis 等 人 对 其 进行 了 完善 和 发 展 。 遗 传 算法 主要 特点 








是 











接 对 结构 对 象 进行 操作 , 不 需要 求 导 和 函数 连续 性 的 限定 ; 具有 内 在 的 隐 并 行 性 和 更 好 












































的 全 局 寻 优 能 力 ; 采 














| 概率 化 的 寻 优 方法 ,能 自动 获取 和 指导 优化 的 搜索 空间 ， 自 适应 地 调 

















整 搜 索 方向 ， 不 需要 确 


定 的 规则 。 遗 传 算法 的 这 些 性 质 ， 已 被 人 们 广泛 地 应 用 于 组 合 优化 、 























机 器 学 习 、 信 号 处 理 、 























自 适应 控制 和 人 工 生命 等 领域 。 它 是 现代 有 关 智 能 计算 中 的 关键 技术 















































之 一 。 当 前 ， 人 们 用 进化 计算 (Evolutionary Computation ) 来 包括 遗传 算法 ， 进 化 规划 ， 进 





























化 策略 和 遗传 编程 ， 并 认为 它 是 人 工 智能 的 未 来 。 鉴 于 遗传 算法 的 论文 和 书籍 已 经 很 多 ， 有 














兴趣 的 读者 可 以 参考 其 











它 书 籍 ， 这 里 我 们 简单 介绍 它 的 原理 。 








7.2 优化 算法 

















从 本 质 上 讲 ， 遗 传 算法 是 一 种 自 适应 的 全 局 的 概率 搜索 算法 ， 是 一 种 优化 的 方法 。 我 们 





知道 ， 传 统 的 优化 方法 主要 有 三 种 : 枚 举 法 、 局 发 式 算法 和 搜索 算法 : 


(D 枚 举 法 “ 枚 举 昌 


















































可行 解 集合 内 的 所 有 可 行 解 ， 以 求 出 精确 最 优 解 。 对 于 连续 函数 ， 




















该 方法 要 求 先 对 其 进行 离散 化 处 理 ， 这 样 就 可 能 因 离散 处 理 而 永远 达 不 到 最 优 解 。 此 外 ， 当 

















枚 举 空间 比较 大 时 ,该 
解 。 











方法 的 求解 效率 比较 低 ， 有 时 甚至 在 目前 最 先进 计算 工具 上 都 无 法 求 






































(2) 局 发 式 算法 “寻求 一 种 能 产生 可 行 解 的 局 发 式 规则 ， 比 如 梯度 变化 的 方向 等 ， 以 找 
到 一 个 最 优 解 或 近似 最 优 解 。 该 方法 的 求解 效率 比较 高 , 但 对 每 一 个 需求 解 的 问题 必须 找 出 
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其 特有 的 局 发 式 规则 ， 这 个 局 发 式 规 则 要 求 对 问题 本 号 有 








村 
\ 适 合 于 其 他 问题 。 





pa 











第 七 章 遗传 算法 




















比较 深刻 的 了 解 ， 一 般 无 通用 性 ， 














(3) 搜 索 算法 “寻求 一 种 搜索 算法 ， 该 算法 在 可 行 解 集合 的 一 个 子 集 内 进行 搜索 操作 ， 








以 找到 问题 的 最 优 解 或 者 近似 最 优 解 。 该 方法 虽然 保 记 








F 不 了 一 定 能 够 得 到 问题 的 最 优 解 , 但 


若 适当 地 利用 一 些 启发 知识 ， 就 可 在 近似 解 的 质量 和 效率 上 达到 一 种 较 好 的 平衡 。 
随 着 问题 种 类 的 不 同 以 及 问题 规模 的 扩大 , 人 们 在 寻求 一 种 能 以 有 限 的 代价 来 解决 搜索 


























和 优化 的 通用 方法 , 遗传 算法 正 是 为 我 们 提供 











化 方法 。 主 要 区 别 在 于 : 
二 
度 函 数 及 遗传 算 子 确定 后 , 算法 将 利 






































的 选择 策略 为 “ 适 者 生存 ， 不 适应 者 被 淘汰 ”， 因 






































进化 过 程 ， 

















的 一 个 有 效 的 途径 , 它 不 同 




















| 





于 传统 的 搜索 和 优 





组 织 、 自 适应 和 自学 习性 (智能 性 )。 应 用 遗传 算法 求解 问题 时 ， 在 编码 方案 、 适 应 











获得 的 信息 







































































通常 ,适应 度 大 的 个 体 具 有 更 适应 环境 的 基因 结构 ， 
就 可 能 产生 更 适应 环境 的 后 代 。 进 化 算法 的 这 种 自 组 织 、 自 适应 特征 ， 使 它 同 时 具有 能 根据 
环境 变化 来 自动 发 现 环境 的 特性 和 规律 的 能 力 。 






































行 组 织 搜索 。 由 于 基于 自然 











而 适应 度 大 的 个 体 具 有 较 高 的 生存 概率 。 


通过 基因 重组 和 基因 突 3 





等 遗传 操作 ， 











然 选 择 消除 了 算法 设计 过 程 中 的 一 个 最 大 











障碍 ， 即 需要 事先 描述 问题 的 全 部 特点 ， 并 要 说 明 针 对 问题 的 不 同 特点 算法 应 采取 的 措施 。 




































































搜索 一 个 种 群 数 


行 的 (inherent parallelism)， 即 遗传 算法 


因此 ， 利 用 遗传 算法 的 方法 ， 我 们 可 以 解决 那些 复杂 的 非 结 构 化 问题 。 
遗传 算法 的 本 质 并 行 性 。 遗 传 算法 按 并 行 方式 ] 
它 的 并 行 性 表现 在 两 个 方面 ， 一 是 遗传 算法 是 内 在 3 























目的 点 ， 而 不 是 单 点 。 














本 身 非 常 适 合 大 规模 并 行 。 最 简单 的 并 行 方式 是 让 几 百 甚至 数 千 台 计 算 机 各 自 进行 独立 种 群 









































的 演化 计算 ， 





运行 过 程 











{至 不 进行 任 





























更 好 的 结果 )， 




















结构 没有 什么 限制 和 要 求 , 可 以 说 , 遗传 算法 适合 在 日 





可 通信 (独立 的 种 群 之 间 若 有 少 
等 到 运算 结束 时 才 通 信 比 较 ， 选 取 最 佳 个 体 。 这 种 并 行 处 理 方式 对 并 行 系统 




















+ 的 通信 一 般 会 带 来 









































并 行 处 理 , 而 且 对 3 
由 于 遗传 算法 采 
































种 群 的 方式 组 织 搜索 ， 














前 所 有 的 并 行 机 或 分 布 式 系统 上 进行 
行 效率 没有 太 大 影响 。 二 是 遗传 算法 的 内 含 并 行 性 (implicit parallelism)。 


因而 可 同时 搜索 解 空 间 内 的 多 个 区 域 , 并 相互 交流 























信息 。 使 用 这 种 搜索 方式 ， 虽 然 每 次 只 执行 与 种 群 规 模 n 成 比例 的 计算 , 但 实质 上 已 进行 了 
大 约 O(n ) 次 有 效 搜索 ， 这 就 使 遗传 算法 能 以 较 少 的 计算 获得 较 大 的 收益 。 























遗传 算法 不 需要 求 导 或 其 他 畏 











应 度 函数 。 
遗传 算法 强调 概率 转换 规则 ， 



































助 知识 , 而 只 需要 影响 搜索 方向 的 目标 函数 和 相应 的 适 





而 不 是 确定 的 转换 规则 。 
遗传 算法 可 以 更 加 直接 地 应 用 。 
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@@ 遗 传 算法 对 给 定 问 题 ， 可 以 产生 许多 的 潜在 解 ， 最 终 选择 可 以 由 使 用 者 确定 (在 某 些 
特殊 情况 下 ,如 多 目标 优化 问题 不 止 一 个 解 存在 ， 有 一 组 最 优 解 。 这 种 遗传 算法 对 于 确认 可 
蔡 代 解 集 而 言 是 特别 合适 的 )。 



























































7.3 简单 遗传 算法 (SGA) 


7.3.1 简介 











把 计算 机 科学 与 进化 论 结合 起 来 的 尝试 开始 于 20 世纪 50 年 代 末 , 但 由 于 缺乏 一 种 通用 
的 编码 方案 ， 使 得 人 们 只 能 依赖 变异 而 不 是 交配 来 产生 新 的 基因 结构 ， 故 而 收效 其 微 。 到 
20 世纪 60 年 代 中 期 ， Holland 等 人 的 主要 贡献 是 提出 了 位 编码 技术 ， 这 种 编码 即 适合 于 变 
异 又 适合 交配 ( 即 杂 交 ) 操 作 , 并 且 他 强调 将 交配 作为 主要 的 遗传 操作 。 我 们 习惯 上 把 Holland 
1975 年 提出 的 遗传 算法 GA) 称 为 传统 的 GA。 它 的 主要 内 容 可 包括 : 基因 编码 、 产 生 祖 
先 (群体 )、 基 因 评 价 、 基 因 选 择 和 遗传 操作 。 
编码 (CODING) 
编码 起 着 遗传 信息 与 优化 控制 变量 之 间 的 纽带 作用 , 编码 的 优 劣 有 时 直接 关系 到 能 否 收 
敛 到 最 优 解 。GA 在 进行 搜索 之 前 先 将 解 空 间 的 解数 据 表示 成 遗传 空间 的 基因 型 串 结构 数 
据 , 这些 串 结构 数据 的 不 同 组 合 便 构成 了 不 同 的 解 。 基 因 型 串 结构 是 指 由 0 和 1 组 成 的 字 串 ， 
从 理论 上 讲 ， 这 种 字 串 能 表达 任意 的 数字 和 文字 解 。 在 实际 应 用 中 ,还 有 用 实数 直接 编码 的 
方式 ， 它 容易 理解 ， 也 容易 编程 ， 详 见 后 文 。 

群体 (POPULATION) 

随机 产生 N 个 初始 串 结构 数据 ， 每 个 串 结构 数据 称 为 一 个 个 体 ，N 个 个 体 构成 了 一 个 
群体 。 这 是 GA 与 其 它 算法 最 大 的 不 同 。GA 以 这 NN 个 串 结构 数据 作为 初始 点 开始 和 欠 代 。 
体 数 N 是 遗传 算法 的 一 个 重要 参数 ， 称 为 群 规模 ， 它 的 大 小 由 用 户 指定 ，N 不 能 太 小 ， 太 
小 搜索 范围 小 ， 不 容易 找到 全 局 最 优 ， 但 也 不 宜 过 大 ， 过 大 计算 量 增 大 ， 效 率 急剧 降低 。 一 
般 从 十 开始 ， 以 十 为 单位 递增 。 

评价 (EVALUATION ) 

评价 的 标准 因 所 研究 的 问题 不 同 而 异 ， 在 遗传 算法 中 评价 值 被 称 为 适应 函数 值 
(FITNESS)。 评 价 是 GA 中 最 重要 的 环节 ， 是 个 体 适 应 环境 的 度量 ， 是 竞争 对 手 生 死 存亡 


的 标准 ， 也 是 控制 进化 过 程 的 关键 。 从 男 一 方面 来 讲 ， 如 果 没 有 正确 的 评价 函数 ，GA 就 无 
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选择 (SELECTION) 
选择 的 目的 是 为 了 从 当前 群体 中 选 出 优良 的 个 体 , 使 它们 有 机 会 作为 父 代为 下 一 代 繁 殖 

















子孙 。 遗传 算法 通过 选择 过 程 体 现 这 一 思想 , 进行 选择 的 原则 是 适应 性 强 的 个 体 为 下 一 代 页 





献 一 个 或 多 个 后 代 的 概率 大 。 选 择 实现 了 达尔 文 的 适 者 生存 原则 。 选 择 可 以 有 许多 方式 ， 比 
如 俄国 轮 盘 赌 等 ， 也 可 以 简单 地 选择 所 有 个 体 进 入 下 一 轮 进化 。 























遗传 操作 (GENETIC OPERATOR ) 


GA 能 够 进化 ， 变 化 数据 结构 的 动力 是 遗传 操作 。 通 常 ， 遗 传 操作 包括 
制 。 这 种 模仿 生物 系统 的 遗传 操作 一 方面 保存 和 继承 原先 个 体 中 优秀 的 基因 











杂 




















某 些 不 好 的 基因 ， 使 得 群体 不 断 更 新 ， 逐 渐 趋 近 优化 解 。 








杂交 (CROSSOVER) 





pA 





























交 、 变 异 和 复 


， 男 一 方面 改变 


杂交 是 遗传 操作 的 主要 操作 ， 它 担负 着 优 秀 基因 遗传 的 功能 。 进行 杂交 操作 时 ， 从 群体 





中 随机 选择 两 个 个 体 作为 父 本 或 称 双 亲 ， 对 它们 的 片断 进行 从 新 组 合 ， 产 生 两 个 后 代 


Coffsprings)。 组 合 的 方式 有 三 种 : 


(1) 


(2) 


(3) 






































一 点 杂交 : 随机 选取 一 个 截断 点 ， 将 双亲 码 串 自 此 断 开 后 交换 


其 尾部 。 例 : 


























双亲 后 代 

A 1001|0110 10010001 

B 1101|0001 11010110 
多 点 杂交 : 随机 选取 多 个 截断 点 ， 交 换 有 关 部 分 。 例 : 

双亲 后 代 

A 10|01|01|10 10010101 

B 11|01|00|01 11010010 





























模板 杂交 : 随机 选取 一 个 模板 ， 按 照 模板 内 容 交 换 有 关 部 分 。 




















例 : 
双 杀 后 代 
A 10010110 11010100 
B 11010001 10010011 
































模板 : 01101010( 其 中 0 为 选 A 基因 ，1 为 选 B 基因 ) 








变异 (MUTATION) 


变异 操作 是 模拟 9 
字符 的 翻转 ， 如 在 二 进 制 码 串 ， 


在 实际 应 用 中 通常 采用 两 点 杂交 ， 即 交换 双亲 中 的 一 个 基因 片断 。 

































































E 物 在 自然 环境 中 由 于 各 种 偶然 因素 引起 的 基因 突变 过 程 , 表现 为 码 串 


，0 变 为 1 或 1 变 为 0。 变 异 也 是 GA 中 重要 的 遗传 操作 ， 
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可 以 产生 群体 中 从 没有 HH 





Fal 














避免 进化 停滞 ， 
点 变异 ; (2) 多 点 变异 ; 


比如 : 





要 正 胡 











率 (Pm) 和 终 上 | 

















过 早 
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现 过 的 基因 和 数据 结构 变异 操作 可 使 适应 值 差 的 个 体 或 群体 性 
E 趋 于 一 致 时 的 个 体 发 生变 化 ,同时 防止 适应 值 好 的 个 体 变 异 , 从 而 使 每 一 代 保持 新 鲜 个 体 ， 



























































收敛 。 变 异 通 常 在 群体 中 随机 选择 一 个 父 本 ， 它 也 有 三 种 方式 : (1) 一 
(3) 模板 变异 。 
父 本 后 代 
10010110 10010100 
1 由 1 变 为 0 


有 效 地 运行 GA 还 需要 一 些 控 制 参 数 ， 比 如 群体 大 小 、 交 又 概率 (Pc )、 变 异 概 
上 条 件 等 等 ， 这 些 参数 的 选取 一 般 可 按照 两 个 原则 : 一 是 不 太 严 格 ， 既 在 一 











定 范围 内 对 计算 结果 和 运营 时 间 没 有 太 大 影响 ; 另 一 个 是 参数 在 处 理 不 同 问题 时 没有 统一 的 





最 佳 值 , 和 























需要 调试 .比如 交叉 概率 和 变异 概率 的 取 值 ,一般 Pc 比较 大 (0.8), Pm 比较 小 (0.2)， 





当然 也 可 以 相反 ， 应 从 实际 问题 出 发 灵活 掌握 。 











最 后 我 们 讨论 一 下 终 1 
进行 指定 遗传 代数 后 终止 等 














正确 的 解 ， 




































































条件。 常用 的 终止 条 件 有 根据 适应 值 不 再 变动 一 段 时 间 后 终止 或 
等， 或 者 两 种 条 件 一 起 应 用 。 由 于 使 用 遗传 算法 时 往往 是 先 不 知道 







































































终止 条 件 给 的 宽松 一 点 为 好 ， 当 然 这 意味 着 可 能 多 花费 了 计算 资源 。 
GA 基本 流程 如 图 1.1 所 示 。 











编码 和 种 群生 成 
种 群 适应 度 评 估 















7.3.2 遗传 算法 的 优 缺 点 





遗传 算 








利 











随机 算法 





， 它 不 需要 关于 体系 的 先 验 知识 ,对 于 求解 的 问题 本 身 可 以 一 
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无 所 知 ,只 需要 一 个 适应 值 来 评价 染色 体 。 它 的 优越 性 表现 在 利用 简单 的 编码 技术 和 繁殖 机 











制 来 表现 复杂 的 现象 ， 从 而 解决 非常 困难 的 问题 。 特 别 是 它 不 受 搜 寻 空 间 的 限制 , 不 受 各 种 
































假设 的 约束 。 遗传 算法 通过 在 解 空间 内 不 同 区 域 多 个 点 的 搜寻 , 在 搜寻 过 程 中 不 易 陷 入 局 部 














最 优 ， 并 且 由 于 它 的 并 行 性 ， 它 在 最 优化 并 行 处 理 方面 得 到 了 广泛 的 应 用 。 



































但 一 切 事物 都 具有 两 面 性 ， 尽 管 遗 传 算法 有 许多 方面 值得 襄 扬 ， 但 也 有 其 不 足 ， 遗 传 算 









































法 的 缺陷 之 一 就 是 “ 礁 山 ”能 力 弱 ， 当 搜索 到 局 部 最 优 时 ， 有 时 很 难 跳 向 解 空 间 的 其 他 区 域 ， 












































从 而 陷入 到 局 部 最 优 之 











搜索 优化 时 就 需要 改进 。 








为 了 提高 遗传 算法 的 搜寻 能 力 , 很 多 研究 者 提出 了 新 的 方法 , 使 遗传 算法 在 近年 来 得 到 





了 很 大 的 发 展 。 如 Sysw 


的 多 样 性 。Eshelman 提出 了 阻止 类 似 个 体 之 间 的 杂交 来 防止 过 早 的 收敛 。Whitley 提出 了 编 


FP, 使 整个 搜索 停滞 不 前 。 造 成 这 种 停滞 最 主要 的 原因 之 一 就 是 遗传 











算法 的 变异 概率 大小、 群体 太 小 以 及 群体 失去 多 样 性 等 原因 ， 以 至 于 不 能 驱使 搜索 转移 。 经 
常 找到 的 是 组 合 问题 的 次 优 解 。 而 且 ， 传统 的 遗传 算法 在 计算 时 间 上 也 比较 慢 , 在 大 规模 库 


















































erda 提出 了 一 致 杂交 因子 ， 它 是 随机 交换 基因 序列 位 置 来 保证 群体 





















































码 方法 通过 对 远离 一 些 先前 的 局 部 节 的 距离 进行 编码 来 找到 更 精确 的 解 。 

值得 注意 的 是 在 运用 GA 时 , 初学 者 往往 会 犯 两 类 错误 : 一 类 是 将 GA 用 于 简单 的 优化 
问题 ， 比 如 在 用 于 选择 变量 时 ， 变 量 的 个 数 不 多 ， 一 共 只 有 8-10 个 ， 用 穷 举 的 方法 很 快 就 
能 得 到 结果 ， 这 时 用 GA， 明 显 是 不 划算 的 。 再 比如 对 于 普通 线性 体系 的 求解 ， 前 人 已 经 研 
究 了 许多 成 熟 的 解析 算法 , 在 大 部 分 的 情况 下 , 这 些 算法 又 快 又 准 , 完全 没有 不 必要 用 GA， 



































































































































GA 也 无 法 得 到 更 好 的 结果 。 另 一 类 错误 是 将 GA 的 功能 理想 化 ， 认 为 GA 能 解决 所 有 大 规 
模 优 化 问题 ， 这 也 是 不 现实 的 。 比 如 优化 空间 扩大 到 实数 域 时 ， 同 时 能 找到 50 个 以 上 的 实 
数 解 是 相当 困难 的 ， 只 要 问题 复杂 一 些 ， 往 往 多 次 运行 也 无 法 找到 全 局 最 优 解 。 



























































民 据 我 们 自己 的 经 验 ，GA 比较 适宜 的 应 用 领域 是 : 非 线性 问题 , 需要 迷 代 即 初 值 问题 ， 











以 及 我 们 对 问题 的 解 题 过 程 了 解 很 少 但 却 知道 如 何 评价 的 问题 。 在 生物 和 化 学 计算 中 ,典型 
的 非 线 性 问题 有 平衡 常数 问题 , 它 常常 涉及 非 线性 方程 和 非 线性 方程 组 ,传统 算法 是 用 迭代 













































































法 ， 和 迭代 法 需要 好 的 初 值 ， 初 值 不 对 导致 收敛 到 其 它 解 或 者 发 散 ， 特 别 是 在 多 变量 情况 下 ， 

















问题 更 加 严重 。 这 时 采用 




















GA 就 能 很 好 地 解决 问题 。 另 外 一 个 应 用 GA 的 领域 是 大 规模 优化 ， 








比如 分 子 设计 中 的 分 子 对 接 等 。GA 有 时 可 以 成 为 我 们 手边 的 有 用 工具 ， 遇 到 一 些 一 时 无 法 


5 到 





清楚 的 问题 ， 可 以 用 GA 试 算 一 下 ， 往 往 能 得 到 较 好 的 结果 。 
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7.4 数值 遗传 算法 (Numeric Genetic Algorithm, NGA) 








Holland 提出 的 遗传 算法 是 采用 二 进 制 编码 来 表现 个 体 的 遗传 基因 型 的 ， 它 使 用 











符合 集 












































进 制 0 和 1 组 成 的 , 因此 实际 的 遗传 基因 型 是 一 个 二 进 制 符合 串 , 其 优点 在 于 编 








的 编码 
































码 、 解 码 操作 简单 ， 交 又 、 变 异 等 遗传 操作 便于 实现 ,而且 便 于 利用 模式 定理 进行 理论 分 析 

















等 ; 其 缺点 在 于 ， 不 便于 反应 所 求 问 题 的 特点 知识 ， 对 于 一 些 连续 函数 的 优化 问题 等 ， 也 





























于 遗传 算法 的 随机 特性 而 使 得 其 局 部 搜索 能 力 较 差 , 对 于 一 些 多维 、 高 精度 要 求 的 连 

















续 函 数 











优化 ,二 进 制 编码 存在 着 连续 函数 离散 化 的 映射 误差 , 个 体 编码 较 短 时 ， 可 能 达 不 到 精度 要 









































求 ; 而 个 体 编码 较 长 时 ， 虽 然 能 提高 精度 ， 但 却 会 使 算法 的 搜索 空间 急剧 扩大 。 显 然 ， 如 果 
个 体 编码 串 特 别 长 时 , 会 造成 遗传 算法 的 性 能 降低 。 后 来 许多 学 者 对 遗传 算法 的 编码 方法 进 



























































行 了 许多 改进 , 例如 ， 为 提高 遗传 算法 的 局 部 搜索 能 力 ， 提 出 了 格雷 码 (Grey Code) 编 码 。 下 





面 以 一 个 实际 的 例子 来 说 明 数 值 遗传 算法 的 设计 与 实现 。 我 们 给 




















语言 的 程序 ， 希 望 对 读者 有 所 帮助 。 





1、 问 题 的 表示 




















上 了 基本 思路 和 大 部 分 C 


对 于 一 个 实际 的 待 优化 问题 ,首先 要 将 其 表示 为 适合 于 遗传 算法 操作 的 形式 。 它 包括 以 


下 几 个 步骤 ; 





(1) 根据 具体 问题 






































角 定 待 确定 的 参数 。 在 数值 遗传 算法 中 , 我 们 将 实数 指标 达成 染色 体 ， 


既 将 实数 作为 操作 的 直接 对 象 ， 不 再 进行 转换 。 对 于 不 同 的 问题 ， 这 种 表达 要 相应 


的 变化 。 


(2) 确定 评价 函数 。 这 是 一 个 寻 优 问题 是 否 能 适 
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(3) 对 于 控制 参数 确定 它们 的 相应 值 ， 使 遗传 算法 能 够 正常 运行 。 


举 一 个 实际 问题 为 例 : 


这 是 一 个 非 线 性 参数 估计 问题 ,色谱 保留 时 间 与 淋 洗 条 件 的 关系 。y 是 保留 时 间 ，xi 是 




















遗传 算法 的 关键 ,能 有 一 个 确定 的 
评价 函数 ， 就 可 以 利用 遗传 算法 来 进行 寻 优 。 值 得 指出 的 事 ， 对 于 不 同 的 问 
传 算法 只 要 改变 表达 和 评价 函数 ， 其 余 的 程序 都 不 要 变动 就 可 以 正确 的 运行 。 


题 ， 遗 


=H 





淋 洗 液 中 甲醇 的 百 分 浓 度 ，xs 是 淋 洗 液 的 pH 值 。 根 据 实验 值 ， 建 立 非 线性 模型 如 下 : 














2 2 
y=ax: 十 DC +cxix, +dxit+exs+f 


实验 值 如 下 表 所 示 : 
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了 Xl X2 
6.08 10.0 5.0 
2.42 20.0 5.0 
2.10 30.0 5.0 
7.31 10.0 5:5 
3.00 20.0 5.3 
3.13 30.0 3 
7.06 10.0 6.0 
372 20.0 6.0 
3 30.0 6.0 








k 9 组 实验 数据 ,， 待 确定 的 参数 为 af 的 6 个 数值 , 为 实数 值 , 评价 函数 为 了 (yi-yi*)， 
其 中 yY" 为 根据 系数 计算 方程 右 式 所 得 结果 。 
2、 数 据 结构 与 数值 遗传 算法 参数 

数值 遗传 算法 处 理 的 对 象 主要 是 个 体 , 因此 设计 了 结构 变量 Individual 来 描述 个 体 信息 ， 
其 中 包括 染色 体 chrom， 个 体 评 价值 evalu。 这 样 的 结构 个 体 实 际 上 是 一 个 解 ， 它 的 染色 体 
就 是 要 求解 的 变量 , 这 种 用 实数 直接 编码 的 方法 比较 容易 理解 ， 也 比较 容易 编程 ， 当 然 它 只 
用 于 解 实数 解 。 以 下 程序 出 了 定义 数据 结构 外 ， 还 定义 一 些 常数 变量 ,数组 变量 和 全 局 变 


量 ， 他 们 都 是 以 后 程序 需要 使 用 的 。 
#define POPULATION 50 /#* 种 群 大 小 */ 
#define CHROMSOME 6 。” /# 染 色 体 长 度 头 


此 





















































































































































ZI》 












































#define PCross 10 ”/# 交 叉 概 率 关 

#define PMutation 2 变异 概率 */ 

#define EPSILON 1e-4 尺 终 止 条 件 */ 

#define COUNT 50000 

#define SCALE 1.0 /x 调节 后 期 突变 的 范围 */ 





typedef struct 


{ 
double chrom [CHROMSOME!|; 
double evalu; 

} Individual; 记 个 体 */ 


Individual popul [ POPULATION]; /# 种 群 交 





















































double Scale; /* 调节 后 期 突变 的 范围 */ 

int best, worst; 上 最 优 个 体位 置 ， 最 差 个 体位 置 */ 
double y[9], x1[9], x2[9], var[9][CHROMSOME]; 。 * 方 程式 的 数值 */ 
time t tl, t2; 娠 时 间 定 义 冯 

炒米 炒米 水 Var 
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3、 初 始 种 群 的 产生 
产生 初始 种 群 的 方法 通常 有 两 种 。 一 种 是 完全 随机 的 方法 产生 的 , 它 适合 于 对 问题 的 解 
无 任何 先 验 知识 的 情况 。 另 外 一 种 是 根据 某 些 先 验 知识 , 在 这 些 限制 条 件 下 再 随机 的 选取 样 
本 ， 这 样 能 使 遗传 算法 更 快 的 到 达 最 优 解 。 
在 这 里 我 们 产生 初始 种 群 的 变量 是 随机 选取 了 -1 到 +1 之 间 的 数值 。 


















































void InitNGA () 

{ 
int 1, j; 
time t 了 








srand((unsigned)time(&t));。/* 有 关 时 间 ， 可 不 用 */ 
Scale = 1.0; 

for (i=0; i<POPULATION: i++) 

{ 





for (j=0; j<CHROMSOME; j++) 


{ 
popul[i].chrom[j] = 2*(double)(randO)YRAND MAX -1.0; /x* 在 -1 到 1 之 间 */ 





} 
Evalu (&popul[ 让 ; /* 评价 函数 ， 定 义 见 后 */ 





} 
Sort (); 詹 排队 ， 定 义 见 后 */ 





} 
4、 杂 交 操 作 (Crossover) 


在 数值 遗传 算法 中 , 杂交 操作 是 在 种 群 中 随机 选取 两 个 个 体 , 将 两 个 个 体 中 随机 选取 的 
一 个 变量 相 加 , 取 平 均 数 , 产生 一 个 新 的 个 体 , 然后 评价 这 个 新 的 个 体 是 否 是 更 优 的 适应 值 ， 
如 果 是 更 优 的 个 体 就 用 新 的 个 体 取代 当前 种 群 中 最 差 的 个 体 。 男 一 种 方式 是 产生 两 个 后 代 ， 
既 不 是 用 平均 数 ， 而 是 分 别 给 两 个 后 代 不 同 的 权重 , 读者 可 以 很 容易 编程 。 数 值 遗传 算法 的 
这 种 改进 与 传统 遗传 算法 有 相同 和 不 同 之 处 ,相同 的 是 这 种 杂交 操作 同样 能 保留 父 本 中 有 用 
的 信息 , 既 后 代 的 变化 依据 父 本 的 树 值 ; 不 同 的 是 经 过 这 种 杂交 操作 后 人 们 无 法 确切 的 指出 
哪 一 段 信息 是 哪 一 个 父 本 的 。 当 群体 中 个 体 退 化 时 ， 既 所 有 的 个 体 都 差不多 相同 时 ,这 种 操 
作 失 效 ， 这 是 一 个 缺点 。 


void Crossover () 


{ 































































































pA 







































































int i, j, k; 
Individual offspring; 


do 
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} 





i= random (POPULATION); 
] = random (POPULATION); 
}while (1 ==]); 


for (k=0; kK<CHROMSOME; k++) 
{ 

offspring.chrom[k]=popul[i].chrom[k]; 
} 
k= Irandom (CHROMSOME); 
offspring.chrom[k] += populD].chrom[k]; 
offspring.chrom[k| /= 2; 
Evalu (&offspring); 


if (best !=1) worst = 1; ed 
else worst = j; 
if (offspring.evalu < popul[worst].evalu) 
{ 
for (k=0; k<CHROMSOME; k++) 


{ 
popul[worst].chrom[k|=offspring.chrom[k]| 
} 
popul[worst].evalu = offspring.evalu; 
} 
Sort(); 


5、 突 变 操 作 (Mutation) 


突变 操作 从 群体 中 随机 选取 一 个 个 体 ,将 这 个 个 体 
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的 一 个 随机 选取 的 变量 加 上 一 个 突 








变 随机 数 ， 这 个 突变 随机 数 的 大 小 是 有 Scale 来 控制 





的 ， 产 生 一 个 新 的 个 体 ， 然 后 评价 这 个 






































新 的 个 体 是 否 是 更 优 的 个 体 , 如 果 是 更 优 的 个 体 就 用 新 的 个 体 取代 上 一 代 的 个 体 。 设 置 scale 
是 控制 突变 随机 数 大 小 的 ，scale 为 1 时 ， 突 变 随机 数 变 化 从 0 到 数值 的 两 倍 ， 因 此 给 数据 











变化 足够 大 的 范 


突变 成 功 的 可 能 | 





围 ， 当 程序 长 时 间 无 法 改变 最 优 解 

















六 























时 ，Scale 变 小 ， 这 样 突变 的 范围 减 小 ， 








生 增 大 ， 这 在 需要 较 高 精度 实数 解 时 ， 十 分 有 用 ， 同 时 ，scale 也 是 控制 终 





止 的 关键 参数 ， 当 scale 很 小 ， 比 如 10” 时 ， 程 序 又 长 时 间 没 有 更 好 的 解 出 现 ， 于 是 跳出 循 





环 ， 结 束 运 行 。 
void Mutation () 


{ 


int i, j, k; 


Individual offspring; 
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do 


i= random (POPULATION); 
] = random (POPULATION); 
}while (1 ==]); 


for (k=0; kK<CHROMSOME:; k++) 
{ 
offspring.chrom[k]=popul[i].chrom[k]; 
} 
k= random (CHROMSOME); 
offspring.chrom[k| *= 1+scale*(2*(double)(rand())RAND MAX-1); 
Evalu (&offspring); 


1f (best != 1) Worst = 1;  ** 六 六 六 
else worst = j; 
if (offspring.evalu < popul[worst].evalu) 


{ 
for (k=0; k<CHROMSOME; k++) 
{ 
popul[worst].chrom[k]=offspring.chrom[k]; 
} 
popul[worst].evalu = offspring.evalu; 
} 
Sort(); 


6、 评 价 (Evaluation) 
数值 遗传 算法 中 ,评价 函数 同样 是 非常 重要 的 ， 改变 评价 函数 可 以 适应 不 同 的 问题 。 在 

















评价 函数 的 程序 中 ,我 们 用 了 指针 变革 
用 的 唯一 一 个 有 参数 的 函数 ， 具 体 函数 如 下 所 示 。 























程序 


出 
~ 





























void Evalu (Individual *who) 


{ 


double temp, temp1=0; 
who->evalu = 0.0; 
for(int 1=0;i<9;i++) 
{ 
temp=0; 
for(int j=0;j<CHROMSOME;j++) 
{ 

















temp+=who->chrom[j]*var[ 让 [j]; /*var 数组 在 主 程序 ! 


} 
templ+=(yli]-temp)*(ylij-temp); 





说 明 */ 


也 有 一 些 指针 运算 ,请 读者 注意 ， 这 是 我 们 
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} 





} 


who->evalu+=temp1l; 


7、 排 序 (Sort) 
排序 不 是 数值 遗传 算法 的 一 个 操作 ， 而 是 在 初始 化 、CrossOver 或 者 Mutation 后 找 出 群 
体 中 的 最 优 值 和 最 差 值 。 我 们 用 的 方法 是 只 记录 最 好 和 最 差 数 组 下 表 , 而 不 是 真 的 按 顺 序 排 





序 。 














vold Sort () 


{ 


} 


int i; 


best = worst = 0; 
for (i=1; 1<POPULATION; i++) 
{ 
if (popul[li]j.evalu < popul[best].evalu) 
best = 1; 
if (populli].evalu > popul[worst].evalu) 


Worst = 1; 


8、 主 程序 
主 程序 显示 了 整个 运行 过 程 , 还 有 一 些 数据 文件 、 打印、 控制 等 内 容 , 请 读者 仔细 阅读 ， 


帮助 理解 。 

















vold main() 


{ 


FILE *fp, *out; 
int i, TotalCount = 0, count = 0; 
double prev; 


double sumy, Sumx1, sumx2; 


if ((fp= fopen("GA-data.txt", "r"))==NULL) 
{ 
fprintf(stderr, "Cann't open data file.\n"); 
getchar(); 
exit(0); 


if ((fp= fopen("result.txt", "w"))==NULL) 
{ 


fprintf(stderr, "Cann't write result file.\n"); 


getchar(); 
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入 打开 数据 文件 半 











庆 保 存 数据 文人 


F*/ 





70 


第 七 章 遗传 算法 





exit(0); 


tl = time(NULL); 
for (int 1= 0; 1<9; i++) 





{ 
fscanf(fp, "%lfoblfoolf  &y[i, &x1[i], &x2[i]); 
sumy += y[1i]; 
sumx] += x1[1]; 
sumx2 += x2[1]; 
} 
sumy /= 9.0; 
sumx1 /= 9.0; 
sumx2 /= 9.0; 


for(int 1=0;1<9;i++) 


{ 
yli] -= sumy; 
x1[i] -= sumx!1; 
x2[i] -= sumx2; 诺 这 是 数据 中 心 化 ， 数 据 中 心 化 后 ， 计 算 速 度 加 快 。*/ 
var[i][0]=xl[ilj*xl[i; ”人 设立 var 数组 是 为 了 减少 计算 量 */ 
var[i][1]=x2[1]*x2[1]; 
var[i][2]=x1[i1]*x2[1]; 
var[i][3]=x1[i]; 
var[i][4]=x2[i]; 
var[i][$]=1.0; 
} 
InitNGA O); /# 初 始 化 NGA 和 / 
prev =popul[bestl.evalu; 
while ((TotalCount<COUNT)&&(scale>EPSILON)) ” /* 终 止 条 件 */ 


{ 








if (count >= 500) 


{ 
scale *= 0.1; 
count = 0; 
} 
for (1=0; 1<PCross; i++) 
{ 
Crossover (); 
} 


入 计时 所 
/# 读 取 数据 并 初始 化 %/ 

















入 数据 文件 的 格式 见 本 节 开 始 装 




















谍 对 y 和 xlx2 计算 平均 值 */ 
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for (=0; 1<PMutation; i++) 
{ 

Mutation (); 
} 


if (popul[best].evalu == prev) 
COUnt 十 十 ; 
else 
{ 
prev = popul[best].evalu; 
count = 0; 
} 
fprintf (stderr, "%6d (%2d)\t%6.4f\t[%2d]\t%12.10g\t[%2d1N\t%12.10g\n", Total Count, 
count, scale,best, popul[best].evalu, worst popul[worst].evalu); } 
t=time(NULL); 
for (i =0; i<CHROMSOME; i++) 诺 记 录 结 果 */ 
{ 





fprintf(out, "The best value ls : %10.5f", popul[best].chrom[i]); 
} 
fprintf(out, "\n"); 
fprintf(out, "The best value ls : %10.5f\n", popul[bestl.evalu); 
fprintf(stderr, "This computer time is : %1ld", t2-t1); 
getchar(); 



































以 上 , 我 们 给 出 了 数值 遗传 算法 的 基本 程序 ,读者 应 该 能 够 运行 简单 的 遗传 算法 ,， 并且 
在 此 基础 上 进一步 改进 ， 以 适应 自己 的 需要 。 


























7.5 遗传 算法 的 应 用 









































遗传 算法 提供 了 一 种 求解 复杂 系统 优化 问题 的 通用 框架 ， 它 不 依赖 于 问题 的 具体 领域 ， 
对 问题 的 种 类 有 很 强 的 鲁 棒 性 , 所 以 广泛 应 用 于 很 多 学 科 。 下 面 是 遗传 算法 的 一 些 主要 应 用 
领域 ; 
































(GD) 函 数 优化 ”函数 优化 是 遗传 算法 的 经 典 应 用 领域 ， 也 是 对 遗传 算法 进行 性 能 评价 的 
常用 算 例 。 很 多 人 构造 出 了 各 种 各 样 的 复杂 形式 的 测试 函数 ， 有 连续 函数 也 有 离散 函数 ， 有 
是 函数 也 有 四 函数 ， 有 低 维 函数 也 有 高 维 函数 ， 有 确定 函数 也 有 随机 函数 ， 有 单 峰 函 数 也 有 
多 峰 函 数 等 , 人 们 常用 这 些 几 何 特性 各 异 的 函数 来 评价 遗传 算法 的 性 能 ,而 对 于 一 些 非 线性 、 
多 模型 、 多 目标 的 函数 优化 问题 ,用 其 他 优化 方法 较 难 求解 ,遗传 算法 却 可 以 方便 地 得 到 较 
好 的 结果 。 
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(2) 组 合 优 化 ” 随 着 问题 规模 的 扩大 ， 组 合 优化 问题 的 搜索 空间 急剧 扩大 ， 有 时 在 目前 
































的 计算 机 上 用 枚 举 法 很 难 或 者 甚至 不 可 能 得 到 其 精确 最 优 解 。 对 于 这 类 复杂 问题 人 们 已 意 




















识 到 应 把 精力 放 在 寻求 划 
































证 明 ， 遗 传 算法 对 于 组 合 优 化 








满意 解 上 , 而 遗传 算法 则 是 寻求 这 种 满意 解 的 最 佳 工 具 之 一 。 实践 


FP 的 NP 完全 问题 非常 有 效 。 例如， 遗传 算法 已 经 在 求解 旅行 


商 问 题 、 背 包 问 题 、 装 箱 问题 、 图 形 划 分 问题 等 方面 得 到 成 功 的 应 用 。 























(3) 生 产 调度 问题 ”生产 调度 问题 在 许多 情况 下 所 建立 起 来 的 数学 模型 难以 精确 求解 ， 


即使 经 过 一 些 简 化 之 后 可 以 进行 求解 ,也 会 




















此 ,目前 在 现实 生产 中 也 





























因 简 化 太 多 而 使 得 求解 结果 与 实际 相差 其 远 。 因 
主要 靠 一 些 经 验 进 行 调度 。 遗传 算法 已 成 为 解决 复杂 调度 问题 的 有 

















效 工具 ,在 单 件 生产 车 间 调 度 、 流 水 线 生产 车 间 调 度 、9 














都 得 到 了 有 效 的 应 用 。 

















(和) 自动 控 制 ” 在 自动 控制 领域 





























许多 与 优化 相关 的 问题 需要 求解 ， 遗 传 算 法 的 应 用 























E 产 规划 、 任 务 分 配 等 方面 遗传 算法 



























































益 增 加 ,并 显示 了 良好 的 效果 。 例 如 用 遗传 算法 进行 航空 控制 系统 的 优化 、 基 于 遗传 算法 的 





模糊 控制 器 优化 设计 、 基 




















(5) 机 器 人 智能 控制 
































于 遗传 算法 的 参数 辨识 、 利 用 遗传 算法 进行 人 工 神 经 网 络 的 结构 优 


化 设计 和 权 值 学 习 ， 都 显示 出 了 遗传 算法 在 这 些 领 域 中 应 用 的 可 能 性 。 








机 器 人 是 一 类 复杂 的 难以 精确 建 模 的 人 工 系统 ， 而 遗传 算法 的 起 





源 就 来 自 于 对 人 工 自 适应 系统 的 有 


























究 , 所 以 机 器 人 智能 控制 理所当然 地 成 为 遗传 算法 的 一 个 





重要 应 用 领域 。 例 如 遗传 算法 已 经 在 移动 机 器 人 路 径 规划 、 关 机 器 人 运动 轨迹 规划 、 机 器 











人 道 运动 学 求解 、 细 胞 机 器 人 
(6) 图 像 处 理 和 模式 识别 




















影响 到 图 像 处 理 和 识别 上 














求 。 遗 传 算法 在 图 像 处 








征 提取 、 几 何 形状 识别 等 方面 得 到 了 应 用 。 
E 命 是 用 计算 机 等 人 工 媒体 模拟 或 构造 出 具有 自然 生物 系统 特有 行 


(7) 人 工 生命 人 工 4 
为 的 人 造 系统 。 自 组 织 能 
有 着 密切 的 关系 , 基于 遗 






























































生命 的 研究 沿 处 于 启蒙 阶段 , 但 遗传 算法 已 在 其 进化 模型 、 




















的 结构 优化 和 行动 协调 等 方面 得 到 研究 和 应 用 。 















































图 像 处 理 和 模式 识别 是 计算 机 视觉 中 的 一 个 重要 研究 领域 。 
在 图 像 处 理 过 程 中 ， 如 扫描 、 特 征 提 取 、 图 像 分 割 等 不 可 避免 地 会 产生 一 些 误差 ， 这 些 误 差 
We 





























中 的 优化 计算 方面 是 完全 用 








的 效果 。 如 何 使 这 些 误差 最 小 是 使 计算 机 视觉 达到 实用 化 的 重要 要 























任 的 。 目 





前 已 在 图 像 恢复 、 图 像 边缘 特 





























力 和 自学 习 能 力 是 人 工 生 命 的 两 大 主要 特征 。 人工 生 命 与 遗传 算法 



































传 算法 的 进化 模型 是 研究 人 工 生命 现象 的 重要 理论 基础 。 虽然 人 工 











了 初步 的 应 用 能 力 。 可 以 预见 ， 遗 传 算法 在 人 工 生命 及 复杂 

















系统 突现 性 理论 研究 中 ， 








将 得 到 更 为 深入 的 发 展 。 








学 习 模型 、 行 为 模型 等 方面 显示 

















适应 系统 的 模拟 与 设计 、 复 杂 























(8) 遗 传 程序 设计 Koza 发 展 了 遗传 程序 设计 的 概念 ， 他 使 用 了 以 LISP 语言 所 表示 的 
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编码 方法 , 基于 对 一 种 树 型 结构 所 进行 的 遗传 操作 自动 生成 计算 机 程序 。 虽然 遗传 程序 设计 
的 理论 尚未 成 熟 ， 应 用 也 有 一 些 限制 ， 但 它 已 有 一 些 成 功 的 应 用 。 

(9) 机 器 学 习 ”学 习 能 力 是 高 级 自 适应 系统 所 应 具备 的 能 力 之 一 。 基 于 遗传 算法 的 机 器 
学 习 ， 特别 是 分 类 器 系统 ， 在 许多 领域 得 到 了 应 用 。 例如， 遗传 算法 被 用 于 模糊 控制 规则 的 
学 习 ， 利用 遗传 算法 学 习 隶 属 度 函数 ， 从 而 更 好 地 改进 了 模糊 系统 的 性 能 。 基 于 遗传 算法 的 
机 器 学 习 可 用 于 调整 人 工 神经 网 络 的 连接 权 , 也 可 用 于 神经 网 络 结构 的 优化 设计 。 分 类 器 系 
统 在 多 机 器 入 路 径 规划 系统 中 得 到 了 成 功 的 应 用 。 






































ds 
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7.6 遗传 算法 在 生物 和 化 学 中 的 应 用 





遗传 算法 在 生物 和 化 学 中 得 到 广泛 应 用 , 近 儿 年 这 种 势头 不 但 没有 减 小 , 反而 有 上 升 的 
趋势 ， 几 乎 在 化 学 的 所 有 领域 里 都 能 发 现 GA 在 起 作用 ， 据 不 完全 统计 ， 从 2000 年 以 来 ， 
国内 各 个 领域 的 GA 论文 数 已 超过 于 篇 , 而 国外 在 化 学 和 生物 类 杂志 上 发 表 的 GA 论文 就 有 
400 多 篇 。 这 充分 说 明 GA 作为 一 种 强 有 力 的 优化 方法 ， 有 很 强 的 生命 力 ， 学 习 、 掌 握 和 运 
] GA 是 十 分 重要 的 。 

GA 在 高 维和 有 很 多 局 部 最 优 的 最 优 搜索 中 特别 有 用 。 问 题 的 高 维 使 得 完全 搜索 不 可 
能 ， 局 部 最 优 的 存在 使 得 直接 优化 方法 (如 陡 升 设计 steepest ascent) 不 可 靠 ， 因 为 这 种 方 
法 很 容易 陷于 局 部 最 优 。 

这 些 特点 使 得 GA 特别 适合 用 于 分 子 模拟 , 因为 能 量 超 曲面 非常 复杂 , 有 很 多 局 部 最 优 。 
因此 ， 使 用 “标准 ”的 方法 ， 优 化 的 结构 非常 的 依赖 于 初 值 。 

对 于 一 个 中 等 大 小 的 蛋白 质 (100 个 残 基 ), 如 果 没 有 限制 , 构象 的 数目 可 能 越 是 25100 
(二 每 个 残 基 5 个 可 旋转 键 X 每 个 可 旋转 键 $ 个 可 能 的 旋转 角度 +100)， 如 果 残 基数 大 到 1 
万 ,这样 一 个 巨大 的 搜索 空间 ， 显 然 超越 任何 超级 计算 机 的 能 力 , 但 GA 可 以 找到 接近 最 优 
解 。 这 意味 着 ， 尽 管 不 能 证 明 GA 已 经 真正 找到 了 最 优 解 ，GA 得 到 的 一 些 解 实际 上 超越 了 
以 前 任何 一 种 方法 得 到 的 解 。 这 对 于 没有 分 析 解 的 许多 问题 是 非常 有 用 。 

最 近 ，Jin 等 有 效 的 用 GA 从 一 个 五 肽 的 全 局 最 小 能 量 结构 分 析 得 到 其 骨架 构象 特征 。 




























































































































































































































































































另外 还 有 Fontain, Mestres 和 Scuseria, Hermann 和 Suhai, Meza, Pullan, Niesse 和 Magne， 



































Wang，Hartke 以 及 Kariuki 等 人 的 文章 中 都 报道 用 GA 用 于 构象 搜索 。Brodmeier 和 Pretsch 
给 出 了 GA 用 于 分 子 模拟 的 一 般 描述 。 


GA 应 用 的 另 一 个 领域 是 计算 机 辅助 分 子 设计 (CAMD)，Venkatasubramanian 和 
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Sundaram 给 出 了 一 般 描述 ，Venkatasubramanian 等 人 将 其 应 用 在 多 聚 物 设 计 ，Deivillers 给 
出 了 分 子 设计 中 其 他 应 用 的 综述 。 
在 CAMD 中 ， 基 于 分 子 亚 组 的 结构 特征 的 性 质 预 测 被 定义 为 向 前 问题 ， 





列 期 望 的 宏观 性 质 的 分 子 结构 的 构建 被 定义 为 向 后 问题 。 





























神经 网 络 的 方法 解决 了 ， 后 者 用 GA 很 有 效 。 


Venkatasubramanian 等 人 用 神经 网 络 、GA 杂交 体系 





























j 于 设计 相当 复杂 





和 基于 一 系 














前 一 个 问题 De Weijer 等 人 用 基于 


4 聚合 物 分 子 。 





Devillers 和 Putavy 等 人 用 来 设计 具有 生物 降解 能 力 的 有 机 分 子 。Burden 等 用 来 寻找 更 有 活 


性 的 二 氧 叶酸 还 原 酶 抑制 剂 。Sundaram 等 
用 GA 建立 可 靠 的 定量 构 效 关系 〈QSARs) 和 进行 分 子 多 样 怕 
] 来 测定 烃 的 定量 结构 一 辛 烷 级 别 关 系 。 




















GA 









































来 设计 燃料 添加 剂 。Hopfinger 和 Patel 











述 了 

















FE 实 验 。Meusinger 和 Moros 用 


男 一 个 复杂 的 问题 是 获取 受 体位 点 的 原子 级 别 的 模型 。Walters 和 Muhammad 用 GA 





来 改变 和 优化 原子 的 类 型 , 以 最 大 化 计算 所 得 的 药物 


Jones 等 人 报道 GA 在 化 学 结构 处 理 和 分 子 识别 上 的 三 个 应 月 
通过 三 维 结构 数据 库 子 结构 搜索 , 在 














有 效 。 在 第 二 个 应 




































































个 应 用 中 ，GA 被 用 来 自动 登 加 柔性 的 分 子 。 


GA 用 在 蛋白 质 折 登 这 个 问题 中 ，Schulze-Kremer 给 出 了 一 个 很 好 的 教程 。 

















Nadler 以 及 Krasnogor 等 人 在 这 个 领域 有 有 论文 发 表 。 


Tuffsry 等 人 比较 了 用 不 同 的 搜索 算法 在 优化 蛋 




















和 改良 GA 以 及 一 个 启发 式 的 组 合 方法 )。 
据 Van Kampen 和 Buydens 所 说 ， 在 阐明 一 个 七 肽 的 扭转 角 空 间 结构 时 ， 重 组 并 不 总 





是 有 效 ， 





办 为 杂交 不 能 与 构建 块 结合 来 产生 改进 的 试验 解 。 














基于 选择 和 点 突变 ， 有 


三 倍 。 











日 。 在 第 一 个 应 用 中 ， 








白质 侧 链 构象 的 结果 模拟 退火 ， 简 单 

















Hunger 和 Huttner 将 GA 和 神经 网 络 结合 起 来 用 在 优化 和 分 析 用 于 三 角 染 














力 场 参数 ' 





函数 的 评价 时 ， 可 以 节省 大 量 时 间 。 





Reijmers 等 人 月 

















Clark 汇编 了 




















个 全 面 的 和 更 新 的 关于 “CADD 中 的 进 








昌 GA 来 构建 G 蛋白 结合 受 体 序列 的 系统 树 。 
化 算法 ”参考 文献 列表 。 











。 当 用 训练 的 经 网 络 计算 的 结果 部 分 取代 由 力 场 方法 计算 的 结构 而 得 








受 体 亲 和 力 与 测量 所 得 药物 活性 之 间 























GA 








搜索 三 维 小 分 子 的 构象 空间 来 寻找 药 效 团 模 型 上 面 特别 
中 ，GA 用 在 柔性 配 体 与 部 分 柔性 的 蛋白 质 位 点 的 分 子 对 接 中 。 在 第 三 


Ebeling 和 




















因此 在 这 样 的 问题 中 GA 基本 上 
着 更 复杂 的 突变 一 选择 方案 的 模拟 退火 优 于 GA， 其 收敛 约 比 GA 快 


金属 模板 的 
到 的 适应 值 
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7.7 遗传 算法 的 讨论 和 发 展 


自从 1975 年 J. H. Hollad 系统 地 提出 遗传 算法 的 完整 结构 和 理论 以 来 ， 众 多 学 者 一 









































致力 于 推动 遗传 算法 的 发 展 ， 对 编码 方式 、 控 制 参数 的 确定 、 选 择 方式 和 交叉 机 理 等 进行 了 





























深入 的 探究 , 引入 了 动态 策略 和 目 适 应 策略 以 改善 遗传 算法 的 性 能 , 提出 了 各 种 变形 的 遗传 








个 方面 : 


QD 改变 遗传 算法 的 组 成 成 分 或 使 用 技术 , 如 选用 优化 控制 参数 、 适 合 问题 特性 的 编码 技 


术 等 ; 


























算法 (Variants of Canonical Genetic Algorithms, 简称 VCGA)。 其 基本 途径 概括 起 来 有 下 面 几 






































@ 采 用 混合 遗传 算法 ; 
@ 采 用 动态 自 适应 技术 ， 在 进化 过 程 中 调整 算法 控制 参数 和 编码 粒度 ; 
@ 采 用 非 标准 的 遗传 操作 算 子 ; 
@ 采 用 并 行 遗传 算法 。 
下 面 我 们 就 简单 的 讨论 几 种 遗传 算法 的 变化 : 
1 选择 部 分 (Selection) 





基因 








































































































选择 是 遗传 算法 中 比较 关键 的 一 步 , 它 是 从 母体 中 选取 个 体形 成 繁殖 库 的 过 程 , 有 


























时 直接 关系 到 收敛 速度 问题 。 基 因 选 择 有 很 多 种 方法 ， 比 如 确定 方法 、 轮 盘 赌 法 、 贝 努 利 实 


验 法 等 ,我们 经 常 
止 近亲 繁殖 ， 因 为 性 能 比较 接近 的 个 体 间 相互 交叉 、 变 异 不 利于 优良 性 能 的 传播 , 会 导致 





















































到 的 模拟 退火 方法 也 在 基因 选择 中 发 挥 很 重要 的 作用 。 在 基因 选择 中 禁 
































al 








部 收敛 问题 的 发 生 。 
2 分 层 遗 传 算 法 














N 个 低层 遗传 算法 中 的 每 一 个 在 经 过 一 段 时 间 后 均 可 以 获得 位 于 个 体 串 上 的 一 些 特定 


























位 置 的 优良 模式 。 通 过 高 层 遗 传 算法 的 操作 ，GAiG 二 1，2，…，NN) 可 以 获得 包含 不 同 种 类 
的 优良 模式 的 新 个 体 ， 从 而 为 它们 提供 了 更 加 平等 的 竞争 机 会 。 这 种 改进 的 遗传 算法 与 并 行 
或 分 布 遗 传 算法 相 比 ， 在 上 一 层 的 个 体 交 换 上 ， 它 不 需要 人 为 地 控制 应 交换 什么 样 的 个 体 ， 
也 不 需要 人 为 地 指定 处 理 器 将 传送 出 的 个 体 送 往 哪 一 个 处 理 器 ， 或 者 从 哪个 处 理 器 接受 个 
体 。 这 样 改进 的 遗传 算法 不 但 在 每 个 处 理 器 上 运行 着 遗传 算法 , 同时 对 各 处 理 器 不 断 生 成 的 





新 种 条 

































































进行 着 高 一 








3 混合 遗传 算法 


我 们 知道 ， 梯 度 法 、 疏 山 法 、 模 拟 退 火 法 等 一 些 优 化 算法 具有 














层 的 运算 和 控制 。 



































民 强 的 局 部 搜索 能 力 ， 而 


=~ 
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另 一 些 含 有 问题 相关 的 启发 知识 的 局 发 式 算法 的 运行 效率 也 比较 高 。 如 果 融 合 这 些 优化 方法 








五 














的 思想 ， 构 成 一 种 新 的 混合 遗传 算法 hybrid genetic algorithm)， 是 提高 遗传 算法 运行 效率 和 





























求解 质量 的 一 个 有 效 手段 。 目 前 ， 混 合 遗 传 算法 实现 方法 体现 在 两 
索 过 程 ， 二 是 增加 编码 变换 操作 过 程 。 在 构成 混合 遗传 算法 时 ，D 
原则 : 

QD 尽量 采用 原 有 算法 的 编码 ; 

@ 利 用 原 有 算法 全 局 搜索 的 优点 ; 

改进 遗传 算 子 。 
4 其 他 一 些 改进 






























































个 方面 , 一 是 引入 局 部 搜 


e Jong 提出 下 面 三 个 基本 




















其 他 一 些 发 展 的 遗传 算法 有 Eshelman 于 1991 年 提出 的 CHC 算法 ，Goldberg 等 于 1989 























年 提出 的 messy GA 算法 ， 还 有 自 适 应 遗传 算法 (Adaptive GA, AGA)， 基 于 小 生物 环境 的 遗 





传 算法 以 及 并 行 遗传 算法 等 。 
7.8 其 他 优化 算法 


7.8.1 禁忌 搜索 


禁忌 搜索 (Tabu Search) 是 F. Glove 提出 的 一 种 智能 启发 式 最 优化 方法 。 它 在 许多 问题 上 






































取得 了 优 于 其 它 方法 的 结果 ， 正 在 引起 人 们 的 越 来 越 大 的 重视 。| 
使 它 很 容易 和 其 它 方法 及 特定 问题 的 其 体 知识 结合 起 来 ， 组 成 面向 








































































































于 Tabu 搜索 的 灵活 性 ， 
有 具体 对 象 的 实用 算法 。 



































近年 来 , Tabu 搜索 研究 发 展 很 快 , 许多 研究 者 不 断 将 Tabu 搜索 算法 用 于 新 的 多 个 领域 ， 
并 提出 了 许多 新 的 理论 和 设想 。 例 如 Anderson 等 人 将 Tabu 用 于 电话 线路 的 排列 ; Jozefowska， 




















Glove 等 人 用 于 非 连续 和 连续 行程 安排 ，Bouju 等 人 将 其 用 于 无 线 电 频 率 排列 问题 ， 还 有 
































些 如 色彩 的 排列 ， 食 品 的 管理 ， 机 器 的 布置 ， 资 源 的 管理 问题 等 等 。 
































Tabu 算法 从 一 个 初始 解 开 始 搜索 ， 当 它 在 茶 个 解 x 的 邻 域 NBCO 中 搜索 出 最 好 的 解 y 
时 ， 即 使 解 y 的 质量 没有 x 好 ， 也 将 它 确定 为 下 次 迭代 时 的 初始 解 ， 以 此 来 避免 陷入 局 部 最 






































优 解 。 为 防止 以 后 搜索 时 再 回 到 x， 可 以 构造 一 个 Tabu 集合 ( 表 )， 记 录 解 的 履历 ， 使 新 的 候 


























选 解 只 能 从 NB(x) 与 Tabu 集合 T 的 差 集中 来 选 。 
Tabu 算法 的 一 般 框架 为 : 








Step 0: 选 一 初始 解 x， 将 x 作为 暂 定 解 (最 优 解 )。 令 k=1，Tabu 表 T=@。 
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Step k: 


(1) 若 NB(x) -T= 中 ， 转 CO)。 和 否则， 在 NBCO 中 搜索 











转 Step k。 











局 部 最 优 解 y ， 若 y 不 在 T 


中 或 是 在 T 中 但 满足 激活 条 件 ， 令 x = y。 若 y 比 暂 定 解 好 ， 将 y 作 暂 定 解 。K=k+1， 





(2) 若 满足 终止 条 件 ， 输 出 暂 定 解 ， 算 法 终止 。 和 否则 ， 修 改 Tabu 表 ，k=k+1， 转 








Step k。 








算法 中 设置 的 Tabu 表 和 其 它 表 或 数组 可 以 作为 搜索 过 程 的 短 




















容 可 以 是 : 


(1) 最 近 搜 索 到 的 若干 个 解 。 






























































期 和 中 长 期 记忆 。 表 的 内 


(2) 最 近 搜 索 到 的 解 变量 xi 的 变化 方向 。 在 后 继 的 搜索 中 禁止 向 相反 的 方向 移动 。 
(3) 解 变量 xi 取 某 值 的 频 度 ， 从 而 使 算法 能 够 在 有 希望 的 区 域内 加 强 搜索 ， 同 时 又 有 意 
































识 地 向 迄今 尚未 搜索 过 的 区 域 移动 ， 增 强 搜索 的 广泛 性 。 

















激活 条 件 一 般 利用 解 的 优 度 。 在 实际 应 用 中 ,可 以 把 各 种 先 验 知识 和 搜索 的 履历 、 解 的 














性 质 等 以 禁止 集合 或 其 它 形式 记录 下 来 ， 从 而 控 





5 一 





7.8.2 粒子 群 算法 





粒子 群 算法 (Particle Swarm Optimization， 简 称 PSO) 源 于 对 乌 类 





























以 后 的 搜索 过 程 。 























是 一 种 启发 式 进化 计算 技术 ， 由 Eberhart 博士 和 Kennedy 博士 所 提出 。 








粒子 群 算法 产生 的 背景 是 人 工 生命 的 研究 。 人 工 生命 是 来 研究 具有 














人 工 系统 。 人 工 生 命 包含 两 方面 的 内 容 : 
1) 研究 如 何 利用 计算 技术 研究 生物 现象 ; 
2) 研究 如 何 利 用 生物 技术 研究 计算 问题 。 





















































如 ， 人 工 神经 网 络 是 简化 的 人 类 神经 系统 模型 ， 遗 传 算法 是 对 基因 
生物 界 里 存在 着 另 一 种 生物 社会 系统 , 更 确切 地 说 , 是 在 简单 个 体 组 成 的 和 



























































上 食 行 为 的 研究 ， 也 


某 些 生命 基本 特征 的 











启发 式 优化 算法 的 研究 属于 第 二 方面 的 内 容 。 现在 已 经 有 许多 源 于 生物 现象 的 算法 ,， 比 


进化 过 程 的 模拟 。 同 时 ， 





f 洲 与 环境 以 及 个 




















体 之 间 的 互动 行为 ， 也 可 以 称 之 为 “ 群 智能 ”(Swarm intelligence )。 这 些 模拟 系统 利用 局 部 





























信息 来 产生 某 些 不 可 预测 的 群体 行为 。 在 对 群 智能 的 模拟 中 ， 














计算 机 辅助 设计 等 方面 的 问题 。 


些 看 


究 者 已 经 得 








天 了 满意 的 


结果 ， 例 如 Floys 和 Boids 通过 模拟 鱼 群 和 乌 群 的 运动 规律 ， 成 功 地 解决 了 计算 机 视觉 和 
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在 基于 群 智能 的 优化 算法 中 ， 目 前 主要 有 两 种 比较 成 功 的 算法 : 蚁 群 算法 (Ant Colony 
Algorithm， 简 称 ACA) 和 粒子 群 算法 。 前 者 是 对 蚂蚁 群落 食物 采集 过 程 的 模拟 ， 已 经 成 功 
地 应 用 到 很 多 离散 问题 的 优化 方面 。 粒子 群 算法 也 是 源 于 对 简单 社会 系统 的 模拟 , 最 初 设想 
是 模拟 乌 群 妙 食 的 过 程 ， 但 后 来 人 们 发 现 粒 子 群 算法 是 一 个 很 好 的 优化 工具 。 

粒子 群 算法 模拟 鸟 群 的 捕食 行为 。 设想 一 群 鸟 在 随机 地 搜索 食物 , 在 这 个 区 域 只 有 一 块 
食物 ， 所 有 的 鸟 都 不 知道 食物 在 哪里 , 但 是 它们 知道 当前 的 位 置 离 食物 还 有 多 远 。 那 么 找到 
食物 的 最 优 策略 是 什么 呢 ?” 最 简单 有 效 的 就 是 搜寻 目前 离 食物 最 近 的 鸟 的 周围 区 域 。 

粒子 群 算法 从 这 种 模型 中 得 到 启示 并 用 于 解决 优化 问题 。 粒子 群 算法 中 , 每 个 优化 问题 
的 解 都 是 搜索 空间 中 的 一 只 鸟 ， 我 们 称 之 为 “粒子 ”。 所 有 的 粒子 都 有 一 个 由 被 优化 的 函数 
所 决定 的 适应 值 , 每 个 粒子 还 有 一 个 速度 来 决定 它们 飞翔 的 方向 和 距离 , 然后 所 有 的 粒子 就 
追随 当前 的 最 优 粒子 在 解 空间 中 进行 搜索 。 

粒子 群 算法 初始 化 为 一 群 粒子 〈 随 机 解 )， 然 后 通过 人 迭代 来 寻找 最 优 解 。 在 每 一 次 迭代 
中 ,粒子 通过 跟踪 两 个 “ 极 值 ”来 更 新 自己 的 位 置 。 第 一 个 就 是 粒子 本 身 所 找到 的 当前 最 优 
解 ， 这 个 解 叫做 个 体 极 值 pBest。 男 一 个 极 值 是 整个 群体 中 目前 所 找到 的 最 优 解 ， 这 个 极 值 
是 当前 全 局 最 优 gBest。 在 找到 这 两 个 最 优 值 时 ， 粒 子 根据 如 下 公式 (5-1) 来 更 新 自己 的 速度 
和 新 的 位 置 : 




























































































































































































































































































































































































Vy =wxVa +e Xrand() x (Xia,pBes —Xia)+ cs Xrand() x (Xopest — Xia) 




















其 中 ，V 是 粒子 的 速度 ，xid 为 编号 为 id 的 粒子 的 当前 位 置 ，pBest 和 gBest 如 前 定 














义 。 

rand() 为 介 于 (0, 1) 之 间 的 随机 数 ，cl 和 c2 为 学 习 因 子 ，w 为 速度 递减 惯性 因子 。 

另外 , 在 变量 空间 的 每 一 维 上 ， 粒 子 的 最 大 速度 被 限制 在 一 个 参数 Vmax 之 内 。 如 果 某 
一 维 更 新 后 的 速度 超过 设 定 的 Vmax， 那 么 这 一 维 的 速度 将 被 限定 为 Vmax。 

粒子 群 算法 一 提出 就 吸引 了 广泛 的 注意 ， 各 种 关于 粒子 群 算法 应 用 研究 的 成 果 不 断 涌 
现 ， 有力 地 推动 了 粒子 群 研 究 。 粒子 群 算法 的 应 用 领域 可 以 划分 为 : 函数 优化 、 神 经 网 络 训 
练 、 工 业 系 统 优化 与 控制 以 及 其 他 遗传 算法 的 应 用 领域 等 。 许多 实际 问题 都 可 以 归结 为 函数 
优化 问题 , 粒子 群 算法 用 于 一 般 的 函数 优化 问题 并 不 令 人 意外 。 值得 注意 的 是 将 粒子 群 算法 
于 各 种 复杂 的 优化 问题 也 已 经 取得 了 一 些 进 展 ， 例 如 ， 粒 子 群 算法 用 于 求解 TSP 问题 ; 
用 于 在 噪声 和 动态 环境 下 的 优化 问题 ;用 于 多 目标 优化 问题 等 , 都 取得 了 令 人 感 兴趣 的 结果 。 
粒子 群 算法 也 被 应 用 于 训练 集 单 元 神经 网 络 进行 模式 分 类 , 取得 了 很 好 的 效果 ， 显示 出 粒子 
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群 算法 是 一 种 很 有 希望 的 训练 神经 网 络 的 手段 ,粒子 群 算法 还 被 应 用 于 训练 模糊 前 向 神经 网 
络 进 行 模式 分 类 ， 从 而 从 网 络 的 输出 中 抽取 规则 ,也 取得 了 满意 的 效果 ; 以 及 用 于 实际 系统 
的 模拟 和 控制 问题 ， 也 都 得 到 了 很 好 的 效果 。 

















7.8.3 人 工 蚁 群 算法 




















人 工 蚁 群 算法 是 一 种 新 型 的 模拟 进化 算法 。 该 算法 是 由 意大利 学 者 M.Dorigo、 
VManiez-zo、A.Colorini 等 人 首先 提出 的 ， 称 之 为 蚁 群 系统 (Ant Colony System)， 并 应 用 
该 算法 求解 TSP 问题 、 分 配 问题 、job-shop 调度 问题 ， 取 得 了 较 好 的 结果 。 

人 工 蚁 群 算法 是 受到 对 真实 的 蚁 群 行为 的 研究 的 启发 而 提出 的 。 仿 生 学 家 经 过 大 量 细致 
观察 研究 发 现 ， 蚂 蚁 个 体 之 间 是 通过 一 种 称 之 为 外 激素 (pheromone) 的 物质 进行 信息 传递 
的 。 蚂蚁 在 运动 过 程 中 ,能 够 在 它 所 经 过 的 路 径 上 留 下 该 种 物质 ,而且 蚂蚁 在 运动 过 程 中 能 
够 感知 这 种 物质 ， 并 以 此 指导 自己 的 运动 方向 ， 因 此 ,由 大 量 蚂蚁 组 成 的 蚁 群 的 集体 行为 便 
现 出 一 种 信息 正 反 馈 现象 : 某 一 路 径 上 走 过 的 蚂蚁 越 多 , 则 后 来 者 选择 该 路 径 的 概率 就 越 
。 蚂 蚁 个 体 之 间 就 是 通过 这 种 信息 的 交流 达到 搜索 食物 的 目的 。 

蚁 群 算法 具有 如 下 优点 : 

1) 较 强 的 鲁 棒 性 : 经 典 的 蚁 群 模型 稍 加 修改 ， 便 可 以 应 用 于 其 它 问题 ; 

2) 分 布 式 计算 : 蚁 群 算法 是 一 种 基于 种 群 的 进化 算法 ， 有 具有 本 质 并 行 性 ， 易 于 并 行 实 
现 ; 

3) 易于 与 其 它 方法 结合 ; 该 方法 可 以 与 多 种 启发 式 算法 结合 ， 以 改善 算法 的 性 能 ， 该 
算法 的 一 个 缺陷 是 计算 时 间 较 长 , 随 着 计算 机 的 发 展 和 计算 速度 的 提高 , 可 以 弥补 这 一 缺陷 。 




































































































































































半 六 
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7.8.4 免疫 算法 



































免疫 算法 来 自 于 对 免疫 系统 的 模拟 , 免疫 系统 是 抵抗 细菌 、 病毒 和 其 它 致 病因 子 入 侵 的 
基本 防御 系统 。 免疫 系统 通过 一 套 复杂 的 机 制 来 重组 基因 ， 以 产生 抗体 对 付 入 侵 的 抗原 ， 达 
到 消炎 抗原 的 目的 。 为 了 有 效 地 提供 防御 功能 ,免疫 系统 必须 进行 模式 识别 , 把 自身 的 分 子 
和 细胞 与 抗原 区 分 开 来 。 除了 其 有 识别 能 力 之 外 , 免疫 系统 与 其 它 低 级 生物 防御 系统 的 区 别 
在 于 它 能 够 学 习 ， 并 且 有 记忆 能 力 。 正 是 因为 拥有 上 述 特点 ,免疫 系统 对 同一 抗原 的 防御 反 
应 ， 第 二 次 比 第 一 次 来 得 更 快 、 更 强烈 。 


免疫 算法 与 一 般 的 确定 性 优化 算法 相 比 ， 有 以 下 显著 特点 : 
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第 七 章 遗传 算法 





它 同时 搜索 解 空间 中 的 一 系列 的 点 ， 而 不 只 是 一 个 点 ; 

2) 它 处 理 的 对 象 是 表示 符 求 解 的 参数 的 编码 数字 串 ， 而 不 是 参数 本 身 ; 
3) 它 使 用 的 是 目标 函数 本 身 ， 而 不 是 其 导数 或 其 它 附加 信息 ; 
它 的 变化 规则 是 随机 的 ， 而 不 是 确定 的 。 














证 











免疫 算法 与 其 它 非 确定 性 算法 〈 如 遗传 算法 、 进 化 策略 等 ) 之 间 有 如 下 的 区 别 : 
1) 它 在 记忆 单元 基础 上 运行 ， 有 利于 快速 收敛 于 全 局 最 优 解 ; 
2) 它 有 计算 杀 和 性 (Affinity〉 的 程序 ， 反 映 了 真实 的 免疫 系统 的 多 样 性 (Diversity); 






























































3) 它 通过 促进 或 抑制 抗体 的 产生 ， 体 现 了 免疫 反应 的 自我 调节 功能 。 

















人 工 免疫 系统 中 免疫 算法 已 经 用 于 机 器 学 习 、 异 常 和 故障 诊断 、 机 器 人 行为 仿真 、 机 器 
人 控制 、 网 络 入 侵 检测 、 神 经 网 络 设计 、 谱 分 析 、 参 数 优化 、 工 业 设计 和 生产 等 领域 ， 表 现 




















出 较 卓 越 的 性 能 和 效率 。 





7.8.5 其 他 算法 



































进化 策略 是 从 二 十 世纪 六 十 年 代 由 德国 的 Rechenberg 等 人 发 展 起 来 的 。 进化 策略 与 遗传 
算法 相似 : 随机 产生 大 量 的 基 


























因 , 给 出 一 种 进化 函数 ， 通 过 进化 运算 一 一 交叉 和 变异 运算 重 














组 , 将 那些 最 合适 的 保留 下 来 。 进化 策略 在 非 线 性 优化 、 系 统 辨 识 等 方面 显示 了 其 优 于 经 典 
方法 的 效果 ， 已 被 应 用 于 机 器 学 习 ， 机 器 人 控制 等 领域 ， 以 解决 较 困 难 的 统计 优化 问题 ， 引 
起 了 人 工 智能 、 计 算 科 学 等 领域 专家 的 重视 。 进 化 策略 方法 的 具体 实现 在 此 不 再 费 述 。 



































































































































进化 规划 是 1990 年 Fogel 提 出 的 。 进 化 策略 也 与 遗传 算法 相似 : 随机 产生 大 量 的 基因 ， 
给 出 一 种 进化 函数 ， 通 过 进化 运算 














变 蜡 〈 进 化 规划 中 只 有 一 种 运算 : 变异 ) ， 将 那些 最 

















合适 的 保留 下 来 。 目 前 ， 进 化 规划 已 成 为 系统 辨识 、 优 化 的 有 效 工 具 ， 被 广泛 应 用 于 机 器 学 
习 、 神 经 控制 器 构建 等 ， 以 解决 较 困 难 的 统计 优化 问题 ， 取 得 了 较 好 的 效果 。 进 化 规划 方法 





的 具体 实现 在 此 不 再 歼 述 。 




















模拟 退火 算法 最 初 由 Kirkpatrick 提 出 。 这 种 算法 主要 是 通过 模拟 物理 力学 系统 在 降低 系 


统 内 能 时 状态 变迁 这 一 物理 过 程 实现 对 复杂 多 变量 目标 函数 的 优化 求解 。 模 拟 退 火 最 初 | 












































Kirkpatrick 应 用 于 集成 电路 布 
图 像 处 理 和 模式 识别 等 工程 应 用 问题 ,现在 模拟 退火 已 经 发 展 成 为 非 线 性 多 变量 函数 优化 极 





























局 布线 设计 , 后 来 又 被 成 功 地 应 用 于 求解 TSP, 以 及 图 像 分 割 、 














为 有 效 的 求解 算法 。 模 拟 退 火 方法 的 具体 实现 在 此 不 在 袭 述 。 
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第 八 章 分 子 对 接 


8.1 计算 机 辅助 药物 设计 概述 


从 1964 年 Hansch 和 Fujita 经 典 定 量 构 效 关系 方法 起 ， 计 算 机 辅助 药物 设计 


(Computer-aided drug design, CADD) 已 经 有 三 十 多 年 的 历史 了 。 近 年 来 ， 随 着 分 子 生物 学 包 





























结构 生物 学 的 发 展 , 许多 具有 药理 作用 的 生物 大 分 子 的 三 维 结构 已 经 被 测定 ， 在 此 同时 , 记 




















作 站 和 个 人 计算 机 也 有 巨大 的 发 展 。 在 此 基 而 














究 的 各 种 功能 先进 的 计算 方法 。 因此， 计算 机 可 





































































































D、 在 药物 小 分 子 构 效 关系 基础 上 的 药物 设计 

















上 上， 科研 了 



































1 





算 机 科学 也 得 到 了 长 足 的 进步 , 不 但 发 展 了 用 于 大 规模 并 行 计算 的 超级 计算 机 , 而 且 图 形 工 








[作者 也 发 展 了 用 于 化 学 和 生物 学 研 
才 助 药物 设计 方法 呈现 了 突 飞 狐 进 之 势 ， 已 从 
原来 的 理论 研究 发 展 成 为 一 门 实用 型 的 学 科 , 许多 经 过 计算 机 设计 的 或 计算 机 参与 设计 的 药 
物 已 经 上 市 或 进入 了 临床 研究 。 计算 机 辅助 药物 设计 已 经 和 传统 的 药物 设计 一 样 , 成 为 了 药 
物 设计 中 最 重要 的 手段 之 一 。 因此， 近年 来 应 月 
算 机 辅助 药物 设计 ， 已 成 为 国际 上 十 分 活跃 的 研究 领域 。 
计算 机 辅助 药物 设计 的 方法 可 分 为 一 下 三 类 : 


各 种 理论 计算 方法 和 分 子 模拟 技术 ， 进 行 计 


大 多 数 药物 作用 的 受 体 生物 大 分 子 三维 结 构 现 在 还 不 清楚 ,在 这 种 情况 下 , 一 般 以 小 分 
子 的 结构 和 活性 为 基础 ， 对 一 系列 化 合 物 进行 定量 构 效 关系 (quantitative structure activity 


relationship，QSAR) 和 三 维 定量 构 效 关系 (3D-QSAR) 研 究 ， 得 到 预测 能 力 较 强 的 
































QSAR/3D-QSAR 模型 ， 对 设计 化 合 物 的 活性 进行 预 讽 











|。3D-QSAR 模型 还 可 以 给 























结构 改造 


的 信息 , 这 使 新 化 合 物 的 设计 目标 更 为 明确 。 其 主要 思路 是 : 运用 构象 分 析 和 分 子 模拟 技术 ， 


SN 


dn 

















运用 药物 设计 方法 ， 如 数据 库 搜索 和 全 新 药 4 


2)、 以 受 体 的 三 维 结构 为 基础 的 药物 设计 





近年 来 , 随 着 分 子 生物 学 和 结构 生物 学 的 发 展 , 许多 具有 药理 作用 的 生物 大 分 子 的 三 维 
结构 已 经 被 测定 , 或 者 现在 还 未 测定 , 但 其 一 级 结构 已 经 测定 ,可 以 用 同 源 和 蛋白 模 建 的 方法 
































到 化 合 物 的 活性 构象 , 结合 构 效 关系 研究 结果 , 建立 药 效 基 团 
嫌 设 计 方 法 ， 设 计 新 的 化 合 物 。 

















和 三 维 药 效 基 团 模型 ; 然后 
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建立 其 三 维 结构 模型 。 在 这 种 情况 下 ， 我 们 可 以 用 基于 结构 的 药物 设计 方法 (Structure-based 





























drug design, SBDD) 设 计 靳 的 先导 化 合 物 。 





般 是 


CL 








民 据 受 体 的 三 维 结构 ， 




















论 计 算 方法 研究 药物 和 生物 大 分 子 的 作用 方式 , 得 到 生物 大 分 子 特别 是 其 活性 部 位 或 结合 音 





j 分 子 模拟 或 理 


日 





bp 
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位 的 详细 结构 性 质 ， 如 静电 作用 、 玻 水 作用 和 和 氧 键 结合 等 区 域 的 分 布 。 然 后 ， 用 全 新 药物 设 
计 或 数据 库 搜索 的 方法 ， 设 计 新 的 化 合 物 。 

3)、 与 组 合 化 学 相对 应 的 计算 机 辅助 药物 设计 

组 合 化 学 (Combinatorial chemistry) 的 建立 和 发 展 ， 也 推动 了 计算 机 辅助 药物 设计 方法 的 











发 展 ， 随 之 也 产生 了 计算 机 模拟 组 合 化 学 方法 。 用 分 子 模拟 和 计算 机 技术 设计 合成 组 合 样品 
库 的 构造 块 (building block)、 根 据 分 子 多 样 性 (molecular diversity) 评 价 样品 库 的 质量 , 或 者 建 











立 虚 拟 组 合 样 品 库 o 同 时 ， 高 通 量 得 













































































选 所 产生 的 大 量 信息 也 必须 用 计算 机 来 处 理 。 











8.2 基于 结构 的 药物 设计 












































基于 结构 的 药物 设计 ， 又 被 称 为 合理 药物 设计 方法 (rational drug design)， 是 利用 包含 在 
受 体 生物 大 分 子 的 三 维 结构 中 的 信息 





和 与 相关 的 配 体 关系 来 进行 药物 设计 的 方法 。 





其 中 受 体 生物 大 分 子 的 三 维 结构 是 通过 X 射线 衍射 以 及 核磁 共振 等 技术 测 得 ， 近 十 年 
来 ,许多 制药 公司 发 表 的 研究 结果 表明 , 和 蛋白质 的 三 维 结构 信息 在 新 药 的 发 现 过 程 中 起 重要 
作用 。 蛋 白质 的 三 维 结构 库 在 可 以 在 互联 网 上 查寻 ， 如 : http:/www.rcsb.org/pdb 等 等 ， 也 
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] 同 源 模 建 方法 确立 


种 ， 其 基本 途径 如 图 10-1 所 示 : 





Computational Screening 
of Databases and Large 
Virtual Libraries 





Lead Compound 
Generation 

















High Throughput Screening 
of Corporate Databases and 
Large Combinatorial Libraries 





Biochemical Assays 
to Confirm Hits 


Synthesis of New 
Compounds and 
Combinatorial Libraries 











其 结构 基于 结构 的 药物 设计 可 分 为 分 子 对 接 和 全 新 药物 设计 两 














X-ray Crystallography 
NMR 
Protein Biochemistry 





Structure of the 
Macromolecular Target 












Structure of 
Lead Compound 
Bound to Target 


Computational 
~ 一 Design of Improved 
Lead Compounds 





Computational De Novo 
Design of New Compounds 
and Focused Libraries 





10-1 基于 结构 的 药物 设计 流程 图 
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1)、 全 新 药物 设计 (de novo drug design) 











全 新 药物 设计 是 根据 受 体 活 性 部 位 的 形状 性 质 要 求 ， 上 自动 构建 出 形状 和 








E 质 互补 的 新 分 


子 。 全 新 药物 设计 的 计算 方法 有 三 种 类 型 : 碎片 定位 法 (Fragment positioning methods); 分 子 

















database searches)。 








生长 法 (Molecular growth methods); 碎片 法 结合 数据 库 搜索 (Fragment methods coupled to 


碎片 定位 法 有 两 个 著名 的 程序 ，Goodford 的 GRID 和 Miranker 和 Evensen 等 人 的 




















MCSS(Multiple Copy Simultaneous Search); 其 他 还 有 如 Gillet 等 人 的 HIPPO、Bohm 的 LUDI 





等 等 。 分 子 生长 法 也 有 很 多 计算 方法 ， 包 括 DeWitte 等 人 的 SmoG(Small Molecule Growth)、 








Bohacek 和 和 McMartin 等 人 的 GrowMol、Rotstein 和 Murcko 等 人 的 GroupBuild、Moon 和 Howe 


等 人 的 Grow 等 等 。 碎 片 法 结合 数据 库 搜索 的 程序 有 Eisen 等 人 的 HOOK 等 等 。 








2)、 分 子 对 接 (Molecular Docking) 























分 子 对 接 法 就 是 将 小 分 子 配 体 放 置 了 


F 受 体 的 活性 位 点 处 ， 并 寻找 其 合理 























使 得 配 体 (igand) 与 受 体 (receptoD) 的 形状 包 

















的 取向 和 构象 ， 


0 相互 作用 的 匹配 最 佳 。 在 药物 设计 中 ， 分 子 对接 
































试 ， 从 中 发 现 新 的 先导 化 合 物 。 这 是 本 文 研究 的 重点 。 





8.3 分 子 对 接 








天 然 蛋白 质 在 生物 进化 的 过 程 中 学 会 了 有 选择 地 与 细胞 组 分 相互 作用 ， 









































紧密 的 结构 ， 如 给 体 一 受 体 、 酶 一 底 物 、 酶 一 抑止 剂 、 抗 体 一 抗原 的 结合 等， 








VTS 
所 二 
人 














法 主要 是 用 来 从 小 分 子 数 据 库 里 搜寻 与 受 体 生物 大 分 子 有 较 好 亲和力 的 小 分 子 , 进行 药理 测 





形成 确定 的 、 
这 种 专 一 性 的 















































生物 功能 。 因此 ， 生 物体 系 分 子 间 的 相互 作用 模式 




















是 和 蛋白质 的 特性 ， 它 决定 了 和 蛋白 质 的 
区 





























或 结 
问题 。 它 的 研究 对 于 了 解 生物 分 子 间 的 识 
的 设计 都 是 非常 重要 的 。 






































模式 一 直 是 生物 学 家 最 为 关心 的 课题 之 一 , 是 一 个 具有 重大 理论 和 实际 意义 的 基础 性 
量 


白质 结构 和 功能 之 间 的 关系 和 进行 新 药 








别 机 理 、 














蛋白 质 和 配 体 的 对 接 模 拟 计算 是 二 十 世纪 70 年 代 末 发 展 起 来 的 方法 , 现在 已 经 吸引 了 





越 来 越 多 的 生物 学 研究 人 员 和 化 学 计量 学 工作 者 的 加 入 。 近 二 十 年 来 , 随 着 计算 机 运算 能 














的 大 幅度 提高 、 越 来 越 多 蛋白 质 序列 和 结 






































构 数 据 的 获得 。 人 们 对 生物 分 子 的 力 

















加 精确 的 原子 相互 作用 模型 的 建立 ， 分 子 对 接 的 研究 有 了 重大 的 发 展 。 


























分 子 对 接 法 就 是 将 小 分 子 配 体 放置 
使 得 配 体 与 受 体 的 形状 和 相互 作用 的 匹配 最 佳 。 在 药物 设计 中 , 分 子 对 接 法 主要 是 用 来 从 小 




















F 受 体 的 活性 位 点 处 ， 并 寻找 其 合 忆 








0 深 了 解 以 及 更 


的 取向 和 构象 ， 
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分 子 数 据 库 里 搜寻 与 受 体 生物 大 分 子 有 较 好 亲和力 的 小 分 子 , 进行 药 到 




















EE 测试， 从 


P 发 现 新 的 


先导 化 合 物 。 药 物 分 子 与 受 体 结合 时 ， 必 须 遵循 以 下 互补 匹配 规则 : 1) 几何 形状 互补 匹配 ; 


















































2) 静电 相互 作用 互补 匹配 《〈 正 电荷 对 应 负电 荷 ); 3) 氢 键 相互 作用 互补 匹配 《和 氢 键 供 体 对 



































点 氧 键 受 体 ); 4) 丽 水 相互 作用 互补 匹配 〈 玻 水 区 对 应 玻 水 区 )。 




















所 有 分 子 对 接 计算 都 主要 围绕 着 两 个 方面 进行 : 一 个 是 有 效 的 全 局 优化 过 程 的 建立 ， 









































另 一 个 是 用 于 判断 实际 分 子 构 型 的 评价 函数 的 确定 。 它 们 是 任何 上 骨 在 对 蛋 
行 结构 预测 的 研究 中 最 为 重要 同时 也 是 问题 最 多 的 两 个 方面 ,前 者 要 能 


个 变量 的 各 项 函数 找到 一 个 适当 地 全 局 最 优 值 ， 而 后 者 既 要 计算 省 时 以 便于 构 型 搜索 过 程 







































































又 要 足够 精确 以 保证 能 够 得 到 单一 的 天 然 构 型 。 




















8.3.1 分 子 对 接 程 序 

















Dock 是 第 一 个 分 子 对 接 程 序 ， 是 由 加 利 福 尼 亚 州 立 大 学 旧金山 分 校 的 Kuntz 小 组 于 
























































白质 配 体 复 合 物 进 
够 为 具有 几 个 到 几 十 








1982 年 开发 ， 最 新 版 本 为 5.0。Dock 1.0 考虑 的 是 配 体 和 受 体 之 间 的 刚性 形状 对 接 ，2.0 引 














入 了 “分 而 治之 "算法 ， 提 高 了 计算 速度 ，3.0 采用 了 分 子 力 场 势能 函数 作为 名 
入 了 打分 函数 优化 以 及 化 学 性 质 匹配 等 ，4.0 开始 考虑 配 体 的 柔性 。 
































F 价 函数 ; 3.5 引 


其 他 的 对 接 方法 有 








McMartin 和 Bohacek 的 FLO98，Scripps 研究 所 Olsen 小 组 的 Autodock，Welch 等 人 的 





Hammerhead，Rarey 和 Kramer 等 人 的 FLEXX 等 等 。 

















近 两 年 来 ， 分 子 对 接 有 着 很 大 的 进展 ， 主 要 集中 在 分 子 的 柔性 方面 ，Zhu 等 人 的 
F-DycoBlock 主 要 是 增加 了 蛋白 质 的 柔性 ，Dock 4.0 和 5.0 版 本 开始 考虑 分 子 的 柔性 ， 并 且 利 




































































用 逐步 增长 的 结构 构建 来 处 理 分 子 的 单 轴 旋 转 。Paul 和 Rognan 的 ConsDock 作 了 100 个 蛋白 质 





的 测试 集 ，60% 的 时 候 在 第 一 次 搜索 得 到 了 最 好 的 解 (Rank 0)。 而 TreeDock 主 要 在 半 经 验 能 



































和 


量 计算 作 了 一 些 研究 ，Cai 等 人 用 球 谐 函 数 表面 校正 来 进行 分 子 对 接 等 等 。 











8.3.2 分 子 对接 的 应 用 








分 子 对 接 不 仅 在 理论 上 有 了 很 大 进展 , 它 也 在 许多 方面 得 到 了 应 用 。 首 先 主 要 集中 在 新 
药 发 展 上 ， 利 用 分 子 对 接 设计 新 药 ， 已 经 成 为 新 药 设计 的 一 个 主要 途径 ， 许 多 利用 分 子 对 接 
心血 管 等 疾病 的 药物 









































而 进行 库 搜索 研制 的 新 药 已 经 上 市 。 目 前 ， 已 在 艾滋 病 、 老 年 痴呆 症 、 














ge 



























































充 作用 。 


研制 中 得 到 了 很 大 的 应 用 。 此 外 ， 分 子 对 接 在 酶 的 研究 ， 蛋 白质 网 络 研究 中 也 具有 重要 的 补 
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8.4 分 子 对 接 程 序 Au 





分 子 对 接 法 主要 取决 于 两 个 
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toDock 

















方面 : 一 是 全 局 搜索 算法 , 另 











就 是 分 子 间 结合 自由 能 的 评 











价 函 数 。 而 Scripps 研究 所 的 分 子 对 接 程 序 Autodock 采用 了 半 经 验 的 自由 能 公式 作为 评价 函 












































Autodock 3.0， 将 NGA-TS 应 用 于 分 子 对 接 中 ， 评 价 函 数 采 


由 能 公式 ， 而 全 局 搜索 算法 采用 NGA-TS， 形 成 了 一 个 新 的 分 子 对 接 程 序 。 并 将 计算 结果 与 















































原始 的 Autodock 3.0 计算 的 结果 作 了 对 比 ， 取 得 了 一 定 的 进展 。 


8.4.1 Autodock 简介 

















套 应 











AutoDock 是 


























j 了 模拟 退火 SA) 和 有 局 部 搜索 的 遗传 算法 〈GA-LS) 两 种 。 本 文中 利 


Autodock 中 的 半 经 验 的 自 




















六 





新颖 的 和 健壮 的 自动 对 接 方法 来 预测 柔性 











Pu 


























子 目标 〈 如 酶 、 核 酸 等 ) 之 间 相 互 作 用 的 程序 包 ， 也 可 以 用 来 预测 蛋 
结 








构 , 目标 是 模拟 小 分 子 配 体 (如 多 巴 胺 ) 与 大 分 子 受 体 (如 多 巴 胺 能 














的 分 子 自动 对 接 过 程 。 


它 最 初 是 

















写成 ， 它 现在 























1Scripps 研 究 所 的 David S. Goodsell 和 Garrett M. Morris 等 利 











Autogrid 和 Autotors， 已 经 分 发 到 
氮 酸 和 抗体 复合 物 ， 蛋 白质 和 和 蛋 

在 任何 一 种 分 子 对 接 方案 ， 
果 保 持 在 一 个 可 以 解释 的 水 平 之 
找到 目 









































此 必须 简化 对 接 过 程 。 现在 最 常用 的 手段 是 采 
控制 可 能 的 自由 度 ， 限 制 搜索 空间 等 ; 一 边 使 














人 员 只 需要 指定 在 策 


质 周围 的 
























































配 体 和 已 知 结构 的 大 分 
白质 一 蛋白 质 复 合 物 的 


经 元 中 的 DA 受 体 ) 之 间 





由 David S. Goodsell 用 FORTRAN-77 在 Arthur J. Olson 实 验 室 

















Ansi C++ 设计 ， 





在 SGI 工 作 站 上 运行 ， 现 已 发 展 到 3.0 版 本 ， 包 含 三 个 相互 关联 又 相互 独立 的 过 程 Autodock、 
全 世界 210 多 个 学 院 站 点 上 。 在 预报 酶 和 抑制 剂 复合 物 ， 缩 
白质 的 相互 作用 都 取得 了 很 大 的 成 功 。 











必须 协调 一 对 矛盾 , 即 健壮 、 精 确 的 对 接 过 程 和 要 求 计算 结 


























间 的 矛盾 。 理 想 的 过 程 应 该 是 搜索 所 有 可 能 的 自 
标 蛋 白质 和 配 体 之 间 相 互 作用 能 的 全 局 最 小 值 。 但 这 样 需要 耗费 大 量 的 计算 时 间 , 为 
] 人工 辅 助 的 对 接 方 式 , 一 边 通 过 交互 式 对 话 
上 自动 方法 如 穷尽 搜索 ， 吕 
三 维 搜索 空间 配 体 的 可 旋转 键 和 起 始 搜索 位 置 。 




































































Autodock 使 用 一 种 具有 





Se 






































原子 解析 度 的 、 基 于 
模拟 退火 算法 、 遗 传 算法 进行 结构 搜索 。Autodock 采 月 


接 过 程 进行 控制 。Autodock 程 序 处 到 



























































们 的 连接 作用 能 ， 使 用 自 | 





能 模 

















拟 评价 它们 之 间 的 相对 稳定 性 。 





























度 , 最 后 





























E 离 几何 法 等 , 研究 

















网 格 的 方法 快速 计算 能 





， 使 








dMonte Carlo 








日 手工 辅助 的 方式 ， 通 过 参数 文件 对 对 
E 了 一 批 受 体 一 配 体 复合 物 后 ,就 可 以 由 分 子 动力 学 和 它 
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8.4.2 评价 函数 的 计算 


1、Grid Maps 



































Autodock 的 快速 能 量 计算 是 通过 由 预先 计算 配 体 分 子 中 每 种 类 型 原子 与 生物 大 分 子 相 
互 作用 的 能 量 网 格 (Grid Maps)。 在 过 程 Autogrid 中 ， 大 分 子 周 围 一 定 体积 空间 被 划分 为 三 维 
网 格 ， 在 每 个 三 维 网 格 点 上 放 一 个 探 针 原子 (Probe atom)， 生 物 大 分 子 和 单个 探 针 原子 的 相 
互 作用 能 赋 给 这 个 网 格 点 ， 如 图 8.1。 对 配 体 中 的 每 种 类 型 探 针 原 子 ( 典 型 的 有 C、0O0、N、H 
等 ) 及 带 一 个 正 电荷 的 探 针 电荷 分 别 计算 吸 引 势 能 。 原 子 与 蛋白 质 的 作用 能 就 可 以 通过 它 所 
在 网 格 周围 8 个 网 格 点 的 原子 吸引 势能 ， 由 三 线性 插值 得 到 ; 电荷 和 蛋白 质 的 作用 能 ， 则 先 
由 周围 8 个 网 格 点 的 电荷 势能 通过 三 线性 插值 再 简单 地 乘 上 电荷 数 。 这 样 就 可 以 计算 出 配 体 
与 生物 大 分 子 之 间 的 作用 能 。 



















































































































































































Eh 

















grid spacing /A 


grid point 


n,+l 
probe atom 








图 8.1 Grid Map 


2、Van der Waals 势能 





相互 作用 的 势能 函数 V07) 可 以 有 以 下 公式 来 描述 : 


—br 
0 ee (8.1) 


rr rr 
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A、b、Cs 是 常数 ， 函 数 图 形 如 图 











NN 
4 





Vr) 


epulsive, exchange energy 

















8.2 所 示 ， Veqm 是 平衡 核 间距 ， 路 是 平衡 时 的 势 多 深度 。 








+Ae™/r 





图 8.2 











中 ， 交 换 能 量 可 简化 为 : 








| 
4 


所 以 原子 间 的 能 量 可 简化 为 : 


C 





C 
V(r se=Cr -Cr™ 


m n 


r” rr 





其 











n 和 m 是 整数 ，C, 和 CG% 是 常数 ， 它 们 的 值 取决 于 平衡 时 势 B 














距 。 一 般 来 说 12-6 的 Lennard-Jones 参 数 (n=12, m=6) 常 
参数 (n=12, m=10) 常 用 来 对 氧 键 建 模 。 

1)、 自 相关 的 Lennard-Jones 参数 

可 以 通过 如 下 方法 计算 出 一 下 



























































(8.2) 


(8.3) 











的 深度 及 原子 间 的 平衡 核 间 





] 来 对 Van der Waals 力 建 模 ，12-10 的 





相关 的 参数 ， 任 意 给 定 一 对 原子 ， 先 分 别 求 出 它们 的 





Van der Waals 半 径 和 阱 深 , 令 regmxx 是 两 个 相同 原子 间 的 平衡 核 间 距 ，exx 是 它们 平衡 时 的 势 











能 。 那 么 





1 


Togm, xY 二 2 


Exy = VExxEYY 


参数 o 表 示 为 : 


+r 














有 时 候 Lennard-Jones 势 能 可 























两 个 不 同类 型 原子 X、7 间 的 平衡 核 间 距 和 势能 分 别 为 : 


Vegm, XX i 


(8.4) 
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1 
Tagm, YY 过 如 oO (8.5) 


这 样 ，Lennard-Jones 势 能 就 成 为 : 


ras) -en | (9 -9 (8.6) 





因此 ， 系 数 Cj2 和 Cj 分 别 为 : 
2 
Ci = py (87) 
> : 
Cs 二 225 yy Tagm xy 


2)、 一 般 关 系 式 
我 们 可 以 推导 出 Lennard-Jones 系数 、 平 衡 核 间 距 及 阱 深 之 间 的 一 般 关 系 。 在 平衡 核 间 


距 rogw 时 势能 最 小 ， 即 V(royw)=-e。 势 能 最 小 时 导数 为 0: 























aV nC, mC 

















dr "tl rr" ( ) 
因此 ， 
nC, mC, 
rl 二 m+l (8.9) 
即 
C m+l 
C, = = et (8.10) 


将 C% 代 人 以 前 求 出 的 V0) 中 ， 得 到 : 





























CO 
SS (8.11) 
i Mpa, 
经 过 重 排 计 算 我 们 可 以 得 到 如 下 公式 : 
Css a a, (8.12) 
再 代 回 去 得 到 : 
(二 Eigm (8.13) 


3)、 一 些 典型 原子 间 的 自 相 关 Lennard-Jones 参 数 


一 般 原 子 间 的 Van der Waals 力 的 计算 采用 12-6 的 Lennard-Jones 参 数 , 表 11-1 列 出 了 一 些 
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[mm 
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型 原子 间 的 自 相 关 Lennard-Jones 参 数 ， 这 些 数据 主要 参考 了 Autodock 网 站 ，C7? 和 Cs 数值 

















是 计算 得 来 ， 有 效 数字 位 数 比 较 高 。 其 他 一 些 原子 如 P、F、Cl、Br、I、Fe 等 的 参数 在 网 上 





























可 以 查 的 到 。 
表 8.1 一 些 自 相关 的 Lennard-Jones 12-6 参 数 

Atoms i-j Rogmiy A Ekcalimol’ Ciykcal:mol A®” Cy kcalimol'A® 
C-C 4.00 0.150 2516582.400 1228.800000 
CN 3.75 0.155 1198066.249 861.634784 
C-O 3.60 0.173 820711.722 754.059521 
C-P 4.10 0.173 3908111.160 1645.484377 
C-S 4.00 0.173 2905899.052 1418.896022 
C-H 3.00 0.055 29108.222 79.857949 
N-C 3.75 0.155 1198066.249 861.634784 
N-N 3.50 0.160 540675.281 588.245000 
N-O 3.35 0.179 357365.541 505.677729 
N-P 3.85 0.179 1897159.056 1165.116525 
N-S 3.75 0.179 1383407.742 994.930149 
N-H 2.75 0.057 10581.989 48.932922 
O-C 3.60 0.173 820711.722 754.059521 
O-N 3.35 0.179 357365.541 505.677729 
0-O 3.20 0.200 230584.301 429.496730 
O-P 3.70 0.200 1316590.401 1026.290564 
O-S 3.60 0.200 947676.268 870.712934 
O-H 2.60 0.063 6035.457 39.075098 
P-C 4.10 0.173 3908111.160 1645.484377 
P-N 3.85 0.179 1897159.056 1165.116525 
P-O 3.70 0.200 1316590.401 1026.290564 
P-P 4.20 0.200 6025893.897 2195.612698 
P-S 4.10 0.200 4512698.060 1900.041696 
P-H 3.10 0.063 49816.168 112.261323 
S-C 4.00 0.173 2905899.052 1418.896022 
S-N 3.75 0.179 1383407.742 994.930149 
S-O 3.60 0.200 947676.268 870.712934 
S-P 4.10 0.200 4512698.060 1900.041696 
S-S 4.00 0.200 3355443.200 1638.400000 
S-H 3.00 0.063 33611.280 92.212017 
H-C 3.00 0.055 29108.222 79.857949 
H-N 2.75 0.057 10581.989 48.932922 
H-O 2.60 0.063 6035.457 39.075098 
H-P 3.10 0.063 49816.168 112.261323 
H-S 3.00 0.063 33611.280 92.212017 
H-H 2.00 0.020 81.920 2.560000 
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3、 氢 键 作用 力 


氮 键 作用 力 的 计算 采用 12-10 的 Lennard-Jones 参 数 ， 一 些 典型 氧 键 原 子 间 的 12-10 











Lennard-Jones 参数 见 表 8.2: 


表 8.2 一 些 典型 氧 键 原 子 间 的 12-10 Lennard-Jones 参数 





Atoms i-j Rogmi/ A Ekcalimol’ Ciykcalimol A®” Ciy kcalmolA®™ 

N-H 1.90 5.00 55332.873 18393.199 

O-H 1.90 5.00 55332.873 18393.199 

S-H 2.50 1.00 298023.224 57220.459 
4、 静 电 作用 力 




















静电 作用 力 可 由 Autogrid 程 序 或 其 他 软件 如 MEAD、DELPHI 等 计算 ，Autogrid 程 序 可 以 
计算 大 分 子 和 探 针 电荷 er1.60219x1072C 之 间 的 库仑 作用 力 。 计 算 静 电 作 用 力 时 不 需 考虑 距 
离 因素 ， 在 溶液 中 介 电 函数 与 距离 有 关 ， 根 据 Mehler 和 Solmajer 的 工作 ， 深 液 中 介 电 函数 可 


书 下 面 sigmoid 型 的 函数 表示 : 
















































































E(7) = A+ (8.14) 


其 中 B = sr 4; sg 是 纯 水 的 介 电 常 数 ， 在 2$SC 时 so = 78.4; 参数 4 = -8.5525, 入 = 0.003627, = 














7.7839。 

Autogrid 程 序 要 求 原子 的 电荷 数 必 须 以 PDBQ 格 式 保 存在 文件 中 。PDBQ 格 式 是 在 标准 
PDB 格式 的 基础 上 ， 另 加 一 列 用 来 记录 原子 的 部 分 电荷 数 。 原 子 的 部 分 电荷 数 是 用 分 子 建 模 
程序 如 : Insight I、SYBYL 等 计算 出 来 的 。 

5、 经 验 结合 自由 能 


在 Autodock 3.0 中 , 采用 经 验 结合 自由 能 作为 评价 函数 。 经 验 结合 自由 能 包括 以 下 五 项 : 






















































































AG = AG,a, 二 AGipona 十 ACee 下 AG ,nom 十 AG,, 十 AG,, (8.15) 














在 上 式 中 ， 前 四 项 为 范 德 华 力 〈 色 散 /排斥 力 )、 氢 键 作 用 力 、 静 电 作 用 力 和 背离 实际 键 
长 和 键 角 的 偏差 ， 和 人 Gu 为 内 部 转动 、 全 局 转动 和 平 动 的 限制 ， 人 AGsu 为 玻 水 作用 能 。 

应 用 Wesson 和 Eisenberg 的 热力 学 循环 方法 ， 上 面 公式 可 以 近似 为 以 下 包含 五 项 的 公 
式 : 






























































C, DD, 
jacwzaolS = | 


i,j 


A, B, 
AG = Gu 下 各 一 二 
0,J 


(8.16) 





+ AG a > 0 书 ACw Ni 十 AG, (Sr, 十 SV, per 0 


i,j 万 )r; i,j 


在 这 里 右 式 的 五 项 信 G 为 与 实验 拟 合 得 出 的 各 项 系数 ， 可 以 通过 已 知 配 体 一 蛋白 质 复合 








91 


第 八 章 分 子 对 接 




















物 的 结合 常数 计算 得 到 。 右边 第 一 项 是 配 体 与 受 体 之 间 的 Van der Waals 作 用 对 结合 自由 能 的 
贡献 ; 第 二 项 是 氧 键 作用 对 结合 自由 能 的 贡献 ; 第 三 项 是 静电 作用 对 结合 自由 能 的 贡献 ; 第 
四 项 是 配 体 的 内 部 旋转 自由 能 被 冻结 引起 的 结合 自由 能 变化 ; 第 五 项 是 配 体 与 受 体 结合 时 的 
去 溶剂 化 效应 对 结合 自由 能 的 贡献 。 

为 了 实现 配 体 的 内 部 旋转 和 去 溶剂 化 效应 对 自由 能 的 贡献 ， 在 程序 计算 时 ， 大 分 子 在 
PDBQ 格 式 的 基础 上 ， 还 要 加 上 参数 变 为 PDBQS 格 式 的 文件 。 
6、 三 线性 插值 

Autodock 使 用 基于 网 格 的 快速 能 量 计算 方法 , 对 于 网 格 内 空间 任意 一 点 它 的 能 量 , 可 由 
包围 它 的 网 格 的 8 个 顶点 的 能 量 通 过 三 线性 插值 法 得 到 。 设 点 在 x 方向 上 处 在 第 ww 和 wj 网 格 
点 之 间 ， 在 y 方 向 上 处 在 第 ww 和 vj 网 格 点 之 间 ， 在 z 方 向 上 处 在 第 wo 和 wi 网 格 点 之 间 ， 三 线性 
插值 法 的 具体 计算 步 又 如 下 : 

1). 计算 点 的 网 格 位 置 记 为 @w, v, w)， 则 : 













































































































































































































































































uo = int(u) ul =uo 十 ] 
vo = int(v) vi=vot+l (8.17) 
wo = int(w) wi = wo 十] 

2). 计算 各 权重 
Po = Uo Pu =1- po, 
Po = VY— Vo Pi =1- po, (8.18) 
Pow = W— Wo Piw =1— po,, 





3). 计算 点 (uv w) 处 的 能 量 


E(u,v,w) = pi, pw PiwE (uo, vo, Wo) 
+ pi prPowE (uo, vo, Ww) 
+ pi popPiwE (uo, V1, wo) 
+ pi PovPowE (uo, Vi, Wi) 
+ po PrPiwE (ui, Vo, wo) 
+ po PPowE (ui, vo, Wi) 
+ po PovPiwE (ui, V1, Wo) 
+ pou PovPowE (Wi, Vi, wi) 


(8.19) 


8.4.3 程序 的 编译 和 运行 














Autodock 3.05 版 本 的 源 程序 可 以 从 Scripps 研究 所 得 到 ， 是 用 GNU C++ 语言 编写 ， 在 
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SGI 工作 站 的 UNIX 下 运行 。 其 中 Autodock 有 85 个 C++ 源 文件 和 92 个 头 文 件 ，Autogrid 


























EF， 还 有 和 象 Autotors、Addsol 等 工具 加 起 来 大 约 有 1M 多 





有 12 个 C 语言 源 文件 和 6 个 头 文件 
每 个 分 子 的 对 接 计 算 需 要 做 以 下 步骤 地 准备 ; 
D、 受 体 大 分 子 的 准备 
利 月 





文件 转化 为 PDBQ 文件 ， 然 后 承 








日 网 上 PDB 库 里 下 载 的 蛋白 质 大 分 子 ， 利 用 SYBYL 和 Weblab Viewer 等 软件 ， 除 
去 配 体 小 分 子 和 水 分 子 , 加 入 极 性 氧 原 子 , 计算 出 电 蓓 分布 , 同时 利用 一 些 工具 程序 将 PDB 











de 

















为 PDBQS 文件 。 


2)、 


配 体 小 分 子 的 准备 






































程序 Addsol 加 入 去 溶剂 化 效应 常数 ， 将 PDBQ 文件 转化 








将 药物 分 子 或 者 蛋白 质 复合 物 中 的 小 分 子 计 算出 电荷 分 布 , 产生 一 个 Mol2 文件 格式 的 


药物 分 子 ， 然 后 不 





3)、 




















= 

















参数 文件 的 准备 




















] Autotors 程序 产生 一 个 PDBQ 格式 的 文件 ， 其 中 文件 中 定义 了 可 旋转 








Autogrid 程序 运行 需要 一 个 GPF 的 参数 文件 ， 包 含 了 大 分 子 的 一 些 信 息 和 原子 间 相 互 


作用 的 一 些 参数 ，Autodock 程序 运行 需要 一 个 DPF 的 参数 文件 ， 包 含 了 Grid 文件 、 配 体 分 


子 以 及 搜索 算法 的 一 些 信息 。 利 月 


4)、 


准备 好 所 有 的 文件 后 ,运行 Autogrid 和 Autodock 文件 ， 产生 一 个 包含 对 接 信息 的 输出 
过 对 输出 文件 的 分 析 ， 就 可 以 得 出 























文件 , 通 








程序 的 运行 和 分 析 















































日 mkgpf 和 mkdpf3 这 两 个 工具 产生 GPF 文件 和 DPF 文件 。 








大 分 子 和 配 体 小 分 子 对 接 的 一 些 信息 ， 如 对 接 后 





的 结合 自由 能 、 对 接 位 置 、 预 测 误差 等 信息 。 
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第 九 章 HMM 算法 


隐 马 尔 可 夫 模 型 (Hidden Markov Models)， 在 现今 广泛 地 被 用 在 


中 ,是 语音 信号 的 一 种 统计 模型 。 在 语音 识别 



























































的 模型 。 而 它 的 运用 范围 远 远 不 止 这 些 , 在 生命 科学 迅速 发 
蛋白 质 序列 的 数据 集 搜寻 和 分 类 上 , 以 及 为 人 们 熟知 的 结构 分 析 和 














Td 


将 其 广泛 的 运用 到 基因 和 
模式 识别 上 。 

















9.1 HMM 的 原理 和 应 用 


E 语 音 处 理 的 各 个 领域 
， 可 以 使 用 HMM 建立 起 相关 基本 序列 家 族 
展 的 今天 , 许多 生物 信息 学 家 已 


























9.1.1 Markoyv 链 
Markov 链 是 状态 和 时 间 参 数 都 离散 的 Markov 过 程 。 在 数学 上 它 有 如 下 定义 : 

















随机 序列 Xa， 在 任 一 时 刻 n， 它 可 以 处 在 状态 01 ，... , 9N〔( 对 于 本 文中 的 氨基 酸 序 列 ， 
对 应 20 个 氨基 酸 ,N 为 20)， 且 它 在 mt+k 时 刻 所 处 的 状态 为 qm 的 概率 ， 只 与 它 在 m 时 刻 
的 状态 qm 有关 ， 而 与 m 时 刻 之 前 它 所 处 的 状态 无 关 。 即 有 : 
P(Xm+k= qm+k/Xm= qm, Xm-1= qm-1,..., X1= qd1) 
= P(Xm+k = qm+k/Xm= qm) 


其 ql,qz,.…，,，qmn,qdmke(01 02,..., ON); P 为 概率 。 

















则 称 X 为 Markov 链 。 





9.1.2 HMM 















































HMM 是 从 Markov 链 的 基础 上 发 展 起 来 的 ， 由 于 实际 问题 比 Markov 链 模 型 所 描述 的 
更 为 复杂 ,观察 到 的 事件 并 不 是 与 状态 一 一 对 应 ,而 是 通过 一 组 概率 分 布 联系 起 来 ， 这样 的 








模型 就 称 为 HMM。 它 是 一 个 双重 随机 过 程 ， 其 中 一 个 过 程 描述 的 是 Markov 链 







































































态 的 转移 ; 另 一 个 随机 过 程 描述 的 是 状态 和 观察 值 之 间 的 统计 对 应 关系 。 观 察 值 与 状态 之 间 

















没有 一 一 对 应 的 关系 ， 因 此 
一 阶 的 HMM 可 以 看 成 











》 





























只 能 通过 观察 值 感知 到 状态 的 性 质 及 其 特性 。 














一 个 有 限 状 态 的 集合 S, 一 个 离散 状态 符号 和 





的 集合 A, 一 个 转移 











概率 矩阵 T=(ti)〔 表 述 状 态 的 转移 分 布 )， 每 个 状态 的 符号 分 布 矩 阵 E=(eio) 确 定 的 一 个 时 间 
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序列 的 随机 模型 。 这 样 随 者 时 间 的 展开 ， 模 型 会 产生 不 同 的 符号 〈T 决定 状态 的 产生 ,EE 决 
定 具体 是 哪 一 个 符号 )。 当 系统 处 于 状态 j 的 时 候 ， 它 下 一 个 状态 是 i 的 概率 就 是 Tij， 在 j 
状态 产生 状态 X 的 概率 是 Ex。 图 1 为 一 个 简单 HMM 示意 图 ， 状 态 1 有 一 个 符号 (对 于 


DNA， 即 四 种 碱 基 ) 出 现 的 概率 矢量 (elA=0.25, e1c=0.25, e1G=0.25, e171=0.25)， 状 态 2 的 各 个 





















































符号 出 现 的 概率 不 完全 相同 (CelA 0.1, elcC' 0.1, el1G: 0.1, eT 0.7)， 状态 之 间 的 转移 概率 如 图 








所 示 。 对 于 一 个 碱 基 序 列 ATCCTTTTACTG, 有 开始 状态 $ 经 过 状态 1 和 状态 2 之 间 的 转移 ， 


到 达 中 止 状态 。 





3 



























































图 9.1 asimple HMM, with two states in addition to start and end states 

对 于 我 们 观测 到 的 序列 ， 比 如 氨基 酸 序列 ， 我 们 只 是 得 到 了 最 终 的 状态 分 布 ， 而 状态 之 
间 的 转移 , 以 及 状态 中 各 个 氨基 酸 的 分 布 都 是 隐藏 的 如何 得 到 模型 的 各 个 参数 , 就 是 HMM 
的 训练 问题 ， 目 前 比较 常用 的 训练 算法 是 Baum-Welch 算法 。 

如 果 给 定 了 一 个 HMM， 对 于 未 知 的 序列 ， 我 们 可 以 计算 由 这 个 HMM 产生 该 序列 的 概 
率 ， 这 个 概率 的 大 小 可 以 反映 序列 是 否 隶 属于 该 HMM 对 应 的 类 。 由 于 算法 复杂 度 的 问题 ， 
我 们 不 能 直接 计算 出 序列 产生 的 概率 ， 目 前 采用 前 向 算法 或 后 向 算法 来 简化 该 问题 的 计算 。 

不 同 长 度 的 序列 , 状态 数目 是 不 同 的 。 为 此 我 们 要 在 HMM 的 基础 上 引入 插入 和 删除 状 “ 
态 ， 模型 如 图 2 所 示 ， 图 中 的 点 虚线 的 形状 对 应 模型 的 状态 ， 所 有 箭头 是 单 向 的 ， 箭 头 所 指 
方向 为 可 到 达 路 径 , 而 每 一 个 状态 都 对 应 一 个 符号 的 分 布 ,虚线 箭头 所 指向 
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图 9.2 a HMM architecture used in this paper: S is the start state, E is the End State. 
And di mi, ii denote delete, main, and insert states, respectively. 


9.1.3 HMM 软件 














HMM 在 计算 机 上 的 实现 已 经 是 一 个 成 熟 的 问题 ， 可 以 采用 了 Net-ID 公司 开发 的 





HMMpro 2.0 软件 包 。HMMpro 是 基于 HMM 的 基本 原理 建立 起 来 的 ， 专 门 对 生物 序列 进行 

分 析 的 模拟 器 。 它 使 用 机 器 学 习 的 技术 ， 自 动 地 建立 其 蛋白 质 和 DNA 序列 的 统计 模型 ， 

它 可 以 完成 一 系列 的 计算 分 子 生物 学 的 任务 ,包括 多 重 比 对 、 数 据 集 搜 寻 、 蛋 白质 分 类 、 识 

别 基因 和 识别 新 模式 。HMMpro 可 以 在 不 同 的 软 硬 件 体 系 下 ， 从 PC 机 到 多 处 理 机 UNIX 工 
台 


， 它 都 可 以 运行 。 

































































9.1.4 HMM 的 应 用 
































HMM 在 国内 的 应 用 和 最 新 进展 还 是 主要 停留 在 语音 识别 和 语言 处 理 方面 。 














东南 大 学 的 赵 力 等 提出 了 一 种 新 的 语音 识别 模型 YQ-HMM。 它 综合 了 VQ 和 HMM 的 
优点 ,在 每 个 状态 通过 用 矢量 量化 误差 值 取 代 传 统 HMM 的 输出 概率 值 来 建立 模型 ,同时 提出 
了 基于 分 段 模糊 聚 类 算法 的 模型 参数 估计 方法 .文中 给 出 了 模型 的 实现 方法 ,并 通过 实验 证 明 
了 其 在 语音 识别 中 具有 很 好 的 性 能 .， 并 且 提 出 了 一 种 新 的 语音 识别 方法 , 它 综合 了 VQ、 
HMM 和 无 教师 说 话 人 上 自 适应 算法 的 优点 。 
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} 








方法 ,将 不 同 状态 之 间 容 易 混 淆 的 特征 术 
析 . 通 过 线性 
这 种 基于 状态 的 线性 
状态 数 很 少 的 粗糙 识别 模型 ,也 能 很 大 幅 
汉语 数码 识别 模型 ,孤立 汉语 数码 语音 

基于 隐 马 尔 可 夫 模 型 (4MM) 的 词性 
识别 研究 等 等 ， 关 于 HMM 算法 本 身 也 有 很 多 下 
有 E 子 工程 系 胡 光 

















上 海 交 通 大 学 


于 最 大 似 然 准 则 ,具有 快速 收敛 和 

















青 华 大 学 电子 工程 系 的 史 媛 媛 等 在 隐 含 马尔 科 夫 模型 的 状态 层次 上 采 
本 构成 混淆 模式 类 ,针对 混淆 模式 类 进行 线性 
区 分 变换 ,在 变换 特征 空间 中 仅 保留 那些 能 够 有 效 区 分 该 混淆 类 别 的 特征 参数 

区 分 分 析 有 效 地 提高 了 模型 对 混淆 数码 的 区 分 能 力 .实验 表明 即使 采用 
度 提 高 模型 的 识别 性 能 ;经 过 线性 区 分 变换 优化 后 的 
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识别 率 可 以 达到 99.32%。 


























标 当 











的 应 



























































多 : 











线性 







































































区 分 分 析 
区 分 分 


分 











研究 ， 基 于 隐 马 尔 可 夫 模 型 的 语音 单字 








锐 提出 了 一 种 基于 梯度 的 HMM 参数 重信 方法 , 该 算法 基 
保证 似 然 度 单调 增 的 优点 ， 中 国 科学 技术 大 学 的 刘 鸣 等 为 


了 提高 话 者 确认 系统 的 噪声 鲁 棒 性 ,设计 了 一 种 基于 子 带 隐 Markov 模型 (HMM) 和 多 层 感 知 


机 (MLP) 的 话 者 
M 的 训练 算法 。 


M M 的 观察 符号 输出 概率 分 布 , 进而 采 月 






































认 系 统 。 国 






































防 科学 技术 大 学 计算 机 学 院 陈 火 旺 出 了 一 种 基于 ANN 的 HM 

















于 ANN 和 HMM 在 MM S 忆 训练 准则 上 是 一 致 的 ,可 利 


有 MMI 准 则 对 全 体 理 MM 的 






































ANN 更 新 五 


























他 参数 进行 更 新 ,从 


而 在 提高 特定 的 MM 识别 能 力 的 同时 ， 保 持 不 同志 MM 之 间 的 最 大 差异 性 。 


在 生物 信息 学 上 的 应 用 还 比较 少 ,西安 交通 大 学 的 吴 晓 明 等 采 
的 细胞 色素 C 组 进行 了 训练 和 预报 ， 则 
并 用 该 模型 对 一 些 蛋 


能 够 从 许多 和 蛋 


















































到 外 HMMs 用 于 非 生 物 信 ， 

















的 进 


展 和 应 用 : 





自从 HMMs 引入 计算 生物 学 界 后 〈 生 物 信 息 


模 和 记 


白质 序列 进 














白质 序列 中 识别 出 该 族 的 蛋 














F 价 工具 日 益 得 3 





























] HMM 对 SCOP 数据 库 





它 得 到 了 能 够 代表 该 族 特征 的 隐 马 尔 可 夫 模 型 ， 





























行 分 析 果 表明 ，HMM 能 够 较 好 的 表示 同一 族 的 和 蛋白质， 
白质 序列 。 
昌 学 方面 的 应 用 也 很 多 ， 我 主要 总 结 一 下 在 生物 信息 学 方面 








yy 








学 的 4 


支 )，HMM 作为 一 种 序列 比 对 、 奸 

















站 业界 的 认可 。Baldi 和 Brunak 定义 了 在 计算 生物 学 领域 中 ，HMM 的 





应 用 很 成 功 的 三 个 类 别 : 


1、 


们 可 以 在 很 大 的 
间 很 短 。 当 然 ， 也 出 现 了 一 些 更 灵敏 和 准 
相 比 ， 它 可 以 发 现 序列 久远 (remote〉 的 同 源 性 

在 此 应 


再 MMEs 品 











Ye 
Ea 












































民 


快 。 





以 用 于 DNA 序列 的 多 重 比 对 。 
和 蛋白质 序 列 的 比 对 方法 ， 最 近 发 展 4 





























质数 据 库 重 搜索 同 源 序列 ,好 























有 有 



































LE 论 与 算法 ， 





] 的 最 多 的 方法 可 能 还 是 BLAST。 它 使 得 我 
E 整 个 蛋白 质 序列 中 搜索 一 个 蛋 
角 的 方法 。 我 们 的 HMM 就 是 一 种 ， 跟 常规 的 方法 
。HMMs 也 常用 于 数据 库 的 搜索 比较 。 

之 前 ， 动 态 规划 法 是 序列 比 对 的 基本 工具 ， 最 优化 到 


白质 序列 时 





白质 空间 


在 蛋 
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结构 














预测 和 分 子 对 接 研究 中 有 重要 











HMMs 在 多 重 比 对 方面 有 很 好 的 应 用 。 


SAM (Sequence Alignment and Modeling) 是 一 个 程序 包 ， 


白质 序列 进行 建 模 、 对 其 可 以 相互 


个 线 


2 训 





118 折 著 的 膜 恒 


97% 正 确 





用 ， 








性 的 HMMs 代表 改 家 族 。 


| 练 好 的 HMMs 可 以 揭示 和 和 








1 发现 




















一 种 基于 HMM 方法 来 预报 膜 蛋 





fy 


位置。 











， 有 10 个 蛋白 的 





其 























MLA-DRB1*001 取得 了 很 好 的 效果 。 








3、 大 量 数据 集 的 分 类 问题 。 基于 HMMs 的 方法 已 经 被 用 于 结构 预测 
区 别 不 同 的 蛋白 质 族 ， 同 时 预报 一 个 新 的 恒 


结构 


族 和 


否 必 
用 本 











进行 
子 


分 类 的 问题 ， 另 外 HMMs 也 
还 有 一 个 很 成 功 的 应 用 就 
在 基因 调控 网 络 中 采用 了 一 


诡 。 











Peter 等 











分 


生物 学 数据 
生物 数据 的 特殊 区 域 ,比如 编码 区 和 非 编码 区 , 还 可 以 


白 进行 训练 和 优化 HMM 模型 。 


是 
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应 用 ， 然 而 不 足 之 处 就 是 在 多 重 








定 一 组 相关 的 序列 ， 系 统 能 


的 一 些 内 在 规 各 





比 对 方面 有 局 限 性 。 





a = 


它 可 以 对 DNA、RNA 或 者 蛋 
动 训练 并 且 用 一 






































,一些 规律 已 经 被 用 于 探 















































B 折 芝 





区 域 











] 于 预报 哪些 序列 会 对 











应 某 种 特定 








白 的 B8 折 肝 区 域 的 ， 取 得 了 比较 好 的 结果 。 它 首先 对 
结果 ,这 种 方法 可 以 预测 172 个 B 折 和 三 
大 小 预报 完全 正确 。 

阐明 MHC 分 子 与 抗原 氨基 酸 之 间 的 相互 作用 对 于 我 们 理解 免疫 的 进程 又 很 重 
一 种 采用 HMM，SSI 算法 结合 优化 HMM 结构 的 算法 ， 





区 域 





























要 的 作 
分 子 





预报 人 类 MHC II 


一 按照 碱 基 对 应 不 同 的 





用 于 
用 了 的 发 现 。 
个 基于 蛋 


























基因 














于 某 一 类 。Ashish Bhan 等 用 马 


母 的 基 














sam 米 


来 预 
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的 基 


.1 剪接 位 点 识 





























报 608IHF 在 真 个 染色 体 ! 











井 行 前 


过 位 男 


3y 尔 科 夫 模型 


] profile HMM 来 提高 比 对 的 准确 
David Ussery 在 分 析 大 肠 杆菌 


别 的 背景 知识 介 





] 于 整 








白质 域 的 HMMs 来 判断 一 个 特定 的 基因 是 
个 染色 体 的 表达 时 间 


因 芯 片 数 据 。Richard 等 采用 了 基于 Pair HMMs 的 ab initio 预测 基因 


白质 

















丰 








闻 列 的 分 析 ， 利 
结构 的 方法 。 























大 区 








度 。Karplus 等 利 


 HMM 来 预报 蛋白 质 的 结构 。 




















盏 人 12 MG1655 染色 体 染 色 质 相关 的 蛋白 质 的 时 
的 分 布 。 


接 位 点 识别 


站 绍 




















Ea 








器 ， 采 用 HMM 














组 序列 的 研究 提出 了 对 基因 

















复杂 本 质 探讨 的 课题 。 寿 




















办 组 包含 了 数目 极 多 的 基因 








(用 已 表 


达 序列 聚 类 进行 估 





E 此 之 前 , 科学 家 估计 人 类 
计 ， 人 类 大 约 有 150，000 个 基 
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因 





)， 而 果 蝇 则 约 有 14，000 个 基因 
杂 性 来 说 ， 这 很 合理 。 但 是 人 类 基 
生物 的 复杂 性 与 相应 基 
向 人 们 暗示 : 人 类 表达 序列 (mRNA) 的 数目 远 远 大 于 人 类 基 





























真 核 生物 基因 











复杂 的 本 性 。 


直至 20 世纪 70 年 代 中 
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的 模式 生物 线虫 约 有 19000 个 基 








， 简 音 








内 数目 的 最 终 预报 结 
因 个 数 较 少 ， 这 两 者 之 间 似 乎 产生 了 极 大 的 矛盾 。 同 时 ， 这 个 现象 也 


期， 分子 生物 学 家 才 开 











果 显 示人 类 只 有 约 32 





因 。 从 生物 的 复 











，000 个 基因 。 

















因 的 数 





。 从 而 














台 认 识 到 真 核 生物 的 DNA 





把 矛头 指向 了 


序列 由 编码 序 


列 和 非 编 码 序 列 交 错 组 合 起 来 。 诞 生 了 EXONS (expressed region) 和 INTRONS(intervening 


sequences regiom) 的 概念 。 真 核 生物 与 原核 生物 在 基 


对 于 原核 生物 来 说 , 基因 的 结构 相对 比较 简单 。 原 核 生物 染色 体 通 常 上 只 含有 












































因 

















而 且 每 个 基因 
































以 重复 很 多 次 。 而 且 更 为 重要 的 是 ， 与 原核 生物 基因 


a 


在 DNA 分子 中 
部 分 是 调节 序列 和 信号 序列 。 具 体 来 说 ， 原 核 生 物 的 基因 
编码 区 、 终 止 密码 子 。 对 于 真 核 生 物 来 讲 

















多 数 为 


质 编码 的 真 核 生物 基因 











Ea 








作 垃 圾 序列 ， 但 是 下 文 我 们 将 看 至 


mRNA 前 体 的 加 工 过 程 中 















































都 含有 “ 































































































上 只 出 现 一 个 ， 除 了 为 蛋白 质 编码 的 连续 结构 基因 
































结构 仪 包括 局 动 子 、 


结构 要 复杂 的 多 ， 一 些 基 














其 基因 
































因 在 DNA 


办 结构 的 复杂 性 方面 有 着 本 质 的 差异 。 


个 DNA 分 子 ， 

外 ， 只 有 一 
起 始 密 码 子 、 

可 








小 














是 编码 DNA 的 一 个 完整 片断 不 同 ， 大 


















































居间 序列 ”这些 居 间 序 列 不 编码 
这些 不 编码 蛋白 质 的 序列 有 很 重要 的 功能 ， 
， 发 挥 着 无 可 替代 的 重要 作用 。 这 些 不 编码 的 “垃圾 序列 ”的 含 


所 
= 


质 ， 被 称 


特别 是 在 





























量 和 分 布 在 不 同 的 生物 中 有 所 不 同 。 图 9.3 是 真 核 生 物 DNA 的 结构 示意 图 。 
终 
ww 了 了 子 了 条 子 床 子 体 子 大 耶鲁 wo 
| 川 和 
图 9.3 diagram of DNA Structure 
真 核 生物 基因 结构 特征 
高 等 真 核 生物 基因 基本 结构 包括 启动 子 、 起 始 密码 子 、exon( 外 显 子 ， 有 时 也 称 作 编码 
序列 )，intron( 内 含 子 ， 有 时 也 称 为 非 编码 序列 》 以 及 终止 密码 子 等 等 。 一 个 基因 中 所 有 的 


exon 在 一 起 被 称 作 该 基 





人 








因 





端 给 体 。 在 DNA 的 转录 过 程 ! 





ee 
日 





仅仅 除去 了 




















的 编码 区 。 在 图 4 中 , intron 与 exon 相连 的 边界 序列 (位 于 intron 
序列 中 ) 被 称 为 3” 端 受 体 ， 而 exon 与 intron 相连 的 边界 序列 (位 于 intron 序列 中 ) 被 称 作 























， 直 接 的 产物 是 pre 一 mRNA， 它 是 DNA 的 直接 录 本 ， 


动 子 ， 包 含 一 段 DNA 序列 的 全 部 exon 和 intron， 并 且 完 成 了 加 帽 和 加 尾 的 修 





99 


第 九 章 HMM 算法 














饰 。 这 些 帽子 和 尾巴 一 直 保 存 至 mRNA 中 。 

在 pre 一 mRNA 形成 之 后 ， 开 始 了 成 熟 mRNA 的 合成 过 程 。 在 细胞 核 中 除去 intron， 并 
且 在 不 同 生 物 条 件 下 选择 不 同 的 exon 保留 ， 按 顺序 连接 ,形成 成 熟 mRNA， 转 移出 细胞 核 。 
值得 一 提 的 是 mRNA 仅仅 含有 exon， 并 且 有 选择 地 拼接 合适 的 exon， 而 并 非 拼接 所 有 的 


exon。 这 实际 上 涉及 到 了 可 变 剪接 (Alternative Splicing) 的 概念 。 































































































所 谓 剪接 即将 pre 一 mRNA 中 的 intron 除去 ,将 外 显 子 顺序 连接 起 来 ,产生 了 功能 mRNA 
的 过 程 。intron 和 exon 的 边界 称 为 剪接 位 点 ， 本 文 的 主要 任务 就 是 依据 HMM 算法 及 序列 
的 局 部 信息 ， 对 真实 剪接 位 点 进行 预报 。 剪 接 位 点 附近 的 序列 是 有 保守 性 的 ， 而 且 这 种 序列 
保守 性 在 intron 序列 上 表现 的 更 加 明显 ， 这 充分 证 明了 基因 中 intron〈 非 编码 序列 ) 并 非 是 
垃圾 序列 。 根 据 统计 ， 在 DNA 中 大 多 数 的 intron 的 5” 端 ， 也 就 是 受 体位 点 附近 ， 有 这 样 
的 保守 序列 : 一 2AGIGTPuAGU+6， 其 中 “|” 以 左 表示 的 是 属于 exon 的 序列 ， 而 “|” 以 右 
表示 的 是 属于 intron 的 序列 ，“|” 本 身 表 示 5” 端 剪接 位 点 ， 一 2 表示 剪接 位 点 以 左 第 二 位 
碱 基 ， 十 6 表示 剪接 位 点 以 右 的 第 六 位 碱 基 ，Pu 表示 在 该 位 上 可 能 出 现 A/G 嘎 哈 ， 而 对 于 
有 下 划 线 的 位 点 ， 则 说 明 这 些 位 点 十 分 保守 。 相 应 的 ， 在 intron 的 3” 端 ， 也 就 是 给 体位 点 
附近 同样 也 有 保守 序列 : 一 4NPyAG|PuN 十 2， 其 中 “|” 以 左 表 示 的 是 属于 intron 的 序列 ， 















































































































































“|” 以 右 表 示 的 是 属于 exon 的 序列 ,“|” 表 是 3” 端 剪接 位 点 ，Py 表示 C/T 喀 喧 :Pu 同 
样 表示 A/G 味 叭 ; N 表示 未 定 的 碱 基 。 一 4、 一 2 及 有 下 划 线 的 位 点 的 含义 与 上 述 供 体位 点 
类 似 。 我 们 可 以 很 明显 地 发 现 大 部 分 的 intron 都 是 以 GT 开头 ， 以 AG 结尾 的 ， 这 是 一 个 十 
分 重要 的 规律 ， 但 是 并 非 以 GT 开头 和 AG 结尾 的 序列 都 是 真实 intron。 以 后 我 们 在 运用 一 
些 算 法 对 这 些 位 点 进行 识别 的 过 程 中 , 就 是 依据 该 规律 选择 虚假 的 剪接 位 点 .从 DNA 到 和 蛋 
白质 的 过 程 ， 如 图 所 示 。 
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promoter 
TSS 
5 Exon | lntron | Exon 2 intron 2 Exon 3 3 
gt ag gt ag 
Transeription factor 
binding sites Transcription downstream 
TATA-box element 








CCAAT-box 





Exon 2 







iotron 1] iotron 2 





(uga,uaa,uag) 


| : pe 2 才 ， polyA site 


六 号 ee - | ‘DS i 四 ee Poly Al Mature 
MAA~AAA mRNA 





5'CAP 





Start codon 
aug 





Stop codon 
(uga,uan, uag) cleavage 


J site 


Protein 





9.4 fom DNAto Protein 


9.2.2 基因 识别 的 原理 和 基本 方法 











在 人 类 基因 组 全 图 正式 发 表 后 ， 科 学 家 十 分 关切 一 个 更 为 复杂 、 更 富有 挑战 意义 、 更 有 
价值 的 任务 一 一 由 这 四 个 碱 基 构 成 的 人 类 的 DNA 到 底 有 什么 有 意义 的 信息 ? 如 何 才能 将 这 
些 复杂 的 信息 全 部 注释 出 来 ? 而 这 其 中 最 为 重要 的 莫 过 于 标注 出 基因 的 位 置 , 因为 正 是 基因 
直接 影响 着 丰富 多 彩 的 蛋白 质 世 界 。 狭 义 的 基因 体 注释 的 含义 就 是 找 出 基因 在 DNA 序列 上 
的 位 置 ， 并 定义 出 exon 和 intron 的 界限 。 后 半 部 分 就 是 本 文 所 要 探索 的 问题 。 

我 们 知道 愈 是 高 等 的 生物 ,基因 体 就 愈 是 复杂 。 因 此 没有 一 种 万 无 一 失 的 方法 能 够 100% 
的 定义 出 基因 。 现 存 的 方法 ， 根 据 其 本 质 我 们 可 以 将 它们 分 为 三 类 。 

第 一 类 的 是 以 统计 预测 为 基础 的 运算 方法 , 它 的 主要 特征 是 不 需要 实验 资料 作 辅助 , 利 
用 基因 以 及 exon-intron 结构 在 DNA 序列 上 已 知 的 一 些 特征 (如 起 始 密 码 子 、 终 止 密码 子 、 
基因 组 DNA 中 的 外 显 子 、 内 含 子 和 剪接 位 点 的 保守 性 ), 在 DNA 序列 上 直接 预测 基因 的 位 
置 。 这 类 方法 的 缺点 是 : 对 过 长 或 过 短 的 外 显 子 、 内 含 子 的 预测 准确 性 不 高 ， 且 容易 高 估 基 
因 的 数目 ， 同 时 高 估 的 程度 又 与 所 要 预测 的 DNA 的 区 域 和 物种 息息相关 。 它 的 优点 是 当 我 
们 所 要 探讨 的 物种 的 实验 资料 非常 缺乏 的 时 候 , 可 以 采用 这 类 方法 , 而 且 一 般 来 说 这 类 方法 
于 不 需要 大 规模 的 库 比 对 , 因此 速度 比较 快 。 这 类 方法 根据 其 依据 的 理论 不 同 又 可 粗 分 为 
5 小 类 : 1. 以 隐 马 尔 可 夫 链 型 为 基础 的 算法 ,包括 GeneMarkhmm，GENSCAN ，Genie， 


HMMgene， 以 及 Veil 等 ; 2. 以 类 神经 网 络 为 基础 的 算法 ， 这 类 方法 包括 : Grail 以 及 
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GrailEXP_Perceval 等 ;3. 以 决策 树 为 基础 的 算法 ,这 类 方法 主要 包括 :MZEF 以 及 MZEF-SPC 




















等 ; 4. 以 结合 多 种 预测 方法 而 成 的 算法 ， 这 类 方法 主要 有 : FGENSH 等 。 其 它 还 有 一 些 方 





法 ， 比 较 著名 的 就 是 GeneID，GeneView 等 算法 。 

















第 二 类 方法 需要 实验 上 的 资料 辅助 ,用 DNA 序列 与 各 类 实验 得 到 的 数据 库 , 如 EST( 表 


现 的 序列 片断 














(Express Sequence Tags))、cDNA (互补 DNA)、 和 蛋白 质 资料 库 等 进行 比 对 ， 









































得 到 可 能 的 基因 所 在 。 虽然 这 种 方法 的 正确 性 比较 高 , 但 是 由 于 它 进行 的 是 序列 比 对 , 因此 ， 






































耗费 的 计算 时 间 和 存储 空间 比较 大 , 且 易 受到 已 知 序列 库 品质 的 影响 。 该 方法 依据 所 使 用 比 


对 方法 的 不 同 又 可 以 分 为 区 域 性 比 对 和 基于 模式 的 比 对 方法 。 














第 三 类 方法 是 结合 上 述 两 类 方法 的 优势 ， 对 未 知 基因 进行 预测 。 它 有 前 提 条 件 ， 即 用 来 


比 对 的 资料 库 中 



































P 己 存在 所 要 比 对 的 蛋白 质 序列 。 这 类 方法 的 准确 性 比较 高 。 其 步骤 是 首先 到 









































蛋白 质 资料 库 

















第 一 类 方法 预测 基因 结构 。 缺点 是 用 这 类 方法 找到 未 知 基因 的 可 能 性 偏 低 ， 且 操作 起 来 不 是 


很 方便 。 


PF， 利用 BLAST 比 对 找到 适当 的 候选 重 白 质 序 列 ， 然 后 以 统计 预测 为 基础 的 



































9.2.3 HMM 用 于 剪 切 点 识别 研究 


1. 实验 数据 集 来 源 和 数据 特点 以 及 数据 的 预 处 理 


由 Burset 


中 


和 Guigo 搜集 的 DNA 序列 集 是 一 个 比较 经 典 的 数据 集合 














(http://www1.imim.es/databases/genomics96/index.html), 被 广泛 用 来 对 一 些 主要 的 基因 识别 























算法 进行 比较 。 


这 个 集合 
































质 的 基因 。 在 筛选 的 过 程 中 首先 除去 了 至 少 编 码 一 个 不 完整 蛋白 质 产 物 的 序列 、 编 码 和 蛋白 


Ph 包含 了 GenBank 将 椎 动物 版 本 的 DNA 序列 , 这 些 序 列 至 少 包 含 一 个 编码 蛋 



































质 的 位 置 没 有 完全 精确 确定 的 序列 、 在 互补 链 上 编码 蛋白 质 的 序列 、 在 别 的 数据 库 条 目 中 定 












































义 了 和 蛋白质 编码 基因 的 序列 和 包含 伪 基因 的 序列 。 然 后 得 到 了 一 个 含有 1410 条 将 椎 动物 






































DNA 序列 的 集合 ， 这 些 序列 中 每 一 个 序列 编码 一 个 并 且 仅 一 个 可 剪接 的 功能 蛋白 产物 。 为 
了 加 强 序列 的 完整 性 ， 又 在 这 些 序列 中 除去 了 蛋白质 编码 区 不 是 由 ATG 这 个 起 始 密码 子 开 















































头 或 者 没有 由 结束 密码 子 结束 的 序列 、 编 码 重 白质 的 片断 不 是 三 的 倍数 的 序列 、 给 体位 点 不 



































是 由 GT 开始 的 序列 或 受 体位 点 不 是 由 AG 结尾 的 序列 或 在 编码 蛋白 质 片 断 的 结构 框 中 含有 








终止 密码 子 的 序列 ,最 后 加 上 仪 收录 发 布 在 GenBank rel. 74,January 1993 之 后 的 序列 的 条 件 ， 














得 到 了 570 条 DNA 序列 ， 这 些 序列 含有 2，892，149 个 碱 基 和 2649 个 exon。 
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综合 来 说 ，ALLSEQ 数据 集 有 两 个 特点 。 第 一 ， 这 些 序列 都 比较 短 ， 且 含有 一 个 结构 
简单 的 完整 基因 ， 有 很 高 的 编码 密度 ， 没 有 序列 错误 ;第 二 ， 这 些 序列 在 建立 之 初 就 考虑 到 
使 数据 集 有 较 小 的 交 盖 率 ， 因 此 ， 只 有 在 1993 年 1 月 之 前 收入 进 公共 数据 库 的 序列 条 目 才 
被 采用 。 所 以 ， 当 我 们 用 ALLSEQ 集 对 程序 和 算法 进行 检验 的 时 候 ， 得 到 的 准确 度 水 平 应 
实数 据 集 对 程序 和 算法 进行 检验 得 到 的 准确 度 水 平 。 因 为 真实 序列 可 能 只 有 比较 
低 的 编码 密度 、 编 码 多 重 基因 、 基 因 的 结构 更 为 复杂 ， 且 序列 出 现 错误 的 几率 可 能 比较 高 一 


此 


= 








~ 




















































































































































































































该 高 于 用 



























































由 ALLSEQ 得 到 的 数据 集 一 共 由 三 个 文本 文件 ,一 个 是 以 fasta 形式 存 贮 的 570 条 DNA 
的 序列 (DNASequences_fasta.txt), 一 个 是 以 表格 形式 存 贮 的 关于 这 570 条 序列 编码 区 (exon) 
的 起 始 和 结束 位 点 数据 〈CDS tbltxt)， 还 有 一 个 是 以 fasta 形式 存 贮 的 由 这 570 条 DNA 序 
列 编码 的 蛋白 质 序列 (AASequences_fasta.txt)。 在 本 文中 , 所 用 到 的 数据 就 是 前 两 个 数据 集 。 


AASequences fasta.txt 的 内 容 如 下 所 示 


















































/Gene ID Codon Start and Stop Site 
ACU08131 521 641 1066 1362 1860 2028 2637 2802 3558 3797 4131 4247 
AGGGLINE 3066 3157 3281 3503 4393 4521 
AGU04852 3951 3955 5434 5516 5810 5911 6665 6739 7637 8415 

Fasta 格式 的 首 行 是 对 序列 的 描述 ， 然 后 几 行 是 数据 序列 。 通 常用 “>” 将 作为 描述 行 的 
首 行 与 序列 行 相 区 别 。 通 常 一 行 数据 长 度 不 超过 80 字符 。 序 列 都 是 用 标准 的 IUB/UPAC 的 
氮 基 酸 和 核 苷 酸 来 编码 。 本 文 所 用 的 DNA 序列 中 ， 除 了 A，T，G，C 这 四 个 编码 ， 我 们 还 


可 以 看 到 一 些 特 殊 字 符 如 : N 表示 A，T，G，C 中 的 任何 一 个 )，R《〈 表 示 味 叭 )，Y〈 表 
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示 喀 啶 )，S《〈 表 示 含 高 G、C 的 位 点 ) 等 等 。 

为 了 适合 对 数据 的 后 续 处 理 , 本 文 编 制 一 系列 文本 处 理 程序 对 原始 数据 的 存 贮 方式 进行 
了 修改 ， 同 时 将 570 条 DNA 的 序列 数据 和 位 点 数据 导入 关系 数据 库 中 ， 鉴 于 我 们 所 要 考虑 
剪接 位 点 附近 的 序列 数据 ， 我 们 除去 了 每 个 基因 序列 的 起 始 位 点 〈 以 ATG 为 起 始 密码 子 ) 
和 每 条 DNA 序列 的 终止 位 点 (一 些 序列 以 TAA 为 终止 密码 子 )， 最 后 得 到 2079 个 受 体位 
点 和 2079 个 给 体位 点 的 序列 数据 ， 等 待 进一步 按 DNA 的 局 部 序列 信息 对 整体 集合 进行 分 
类 ， 从 而 得 到 相应 的 训练 集 和 测试 集 。 
2. HMM 的 识别 键 切 点 的 总 体 思路 

1) 序列 片断 的 选择 以 及 窗口 的 确定 

跟 其 他 的 识别 算法 一 样 ， 首 先是 选择 合适 序列 的 片断 。DNA 的 剪 切 点 模型 如 下 图 所 示 ， 
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我 们 的 目标 是 识别 处 给 体位 点 和 受 体位 点 。 在 一 条 基因 的 DNA 序列 中 ， 并 不 是 所 有 的 碱 
基 都 编码 和 蛋白质。 图 中 灰色 的 区 域 是 最 终 编码 的 部 分 ，DNA 在 最 后 通过 剪 切 后 ， 把 白色 的 
非 编 码 区 域 拿 掉 。 这 样 我 们 得 到 一 条 基因 的 DNA 序列 后 ， 必 须 确定 了 前 切 点 之 后 ， 才 能 够 
预测 出 最 终 的 编码 蛋白 质 。 













































































| | AG 有 
| | | coo" ‘x 


Intron 非 编 码 区 

















图 9.5 AT and AG rule 

这 里 的 剪 切 点 其 实 包含 两 个 位 点 , 即 给 体位 点 和 受 体位 点 。 这 里 所 有 真实 的 给 体位 点 右 
侧 都 有 两 个 相同 的 碱 基 GT ， 与 之 相对 应 的 受 体 位 点 左 侧 都 有 两 个 相同 的 碱 基 AG ， 这 个 
规则 我 们 称 之 为 AGGT 规则 。 我 们 可 以 利用 这 个 规则 来 对 位 置 的 基因 序列 预报 它们 的 剪 切 
点 。 在 具体 选择 序列 片断 预报 的 时 候 ， 按 照 这 个 规则 ， 我 们 选择 合适 的 大 小 的 窗口 ， 在 所 有 
的 GT 或 AG 位 点 附件 选择 一 些 序列 ， 这 些 序 列 可 能 是 真实 的 剪 切 位 点 ， 当 然 大 部 分 都 是 
虚假 位 点 。 对 一 个 未 知 的 候选 序列 片断 进行 预报 之 前 ， 有 一 个 模型 的 训练 问题 。 就 是 本 文中 
的 建 模 问 题 。 


























2) HMM 建 模 

按照 前 面 的 AGGT 规则 ， 加 上 选择 合适 的 窗口 之 丛 俄 癸 瑕 /得 到 两 类 序列 的 数据 ， 
一 类 是 真实 位 点 的 序列 ， 另 一 类 是 虚假 的 序列 。 按 照 (入 9 由 Oh 办 沁 想 ， 对 一 类 序列 进行 
训练 之 后 得 到 的 模型 ， 它 可 以 对 未 知 的 序列 作 评 价 也 就 是 打分 ,分 值得 大 小 反应 了 未 知 序列 
有 该 模型 产生 的 概率 。 这 样 ， 从 理论 上 将 ， 用 真实 的 序列 训练 好 的 HMM 模型 ， 分 别 对 两 
类 序列 进行 评价 , 两 类 序列 的 分 值 应 当 有 较 大 的 差异 。 当 然 差异 大 小 反映 了 模型 的 预报 能 

3) 剪 切 位 点 预报 
训练 好 的 模型 可 以 预测 未 知 序列 的 类 别 。 预 报 的 时 候 有 两 种 方式 , 训练 单 模型 和 训练 双 模型 。 
所 谓 训练 单 模型 , 即 在 建 模 阶段 利用 真实 前 切 点 的 序列 或 者 虚假 位 点 的 序列 建 横 ， 后 面 预报 
未 知 的 两 类 序列 , 类 别 的 判断 通过 选择 合适 的 得 分 阔 值 ， 得 分 小 于 和 大 于 阔 值 的 序列 分 别 判 
断 为 两 类 。 使 用 单 模型 训练 的 时 候 有 两 种 选择 ， 一 种 是 采用 真实 的 序列 建 模 或 虚假 的 序列 建 
模 。 一 般 来 说 采用 真实 的 序列 建 模 ， 预 测 效果 要 高 于 采用 虚假 的 序列 建 模 。 而 训练 双 模 型 
是 指 在 建 模 阶段 ， 同 时 训练 两 个 模型 。 对 于 未 知 的 序列 ， 通 过 两 个 模型 的 不 同 评价 ， 其 分 值 
的 趋向 决定 其 类 别 信息 。 
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4) 结果 的 评价 
国际 上 有 一 些 通用 的 用 来 评价 一 个 算法 或 是 程序 对 基因 结构 预测 的 效果 。 本 文中 主要 采 
用 Snme 和 Sn，TP，FP，TN，FN 对 实验 结果 进行 评价 。TP 是 True Positive 的 简写 ， 表 
示 预 报 为 真 的 ， 事 实 上 为 真 的 位 点 ，FP 是 False Positive 的 简写 ， 表 示 预 报 为 真 的 ， 事 实 上 
为 假 的 位 点 ; TN 是 True Negative 的 简写 , 表示 预报 为 假 的 , 事实 上 为 假 的 位 点 ; FN 是 False 
Negative 的 简写 ， 表 示 预 报 为 假 的 ， 事 实 上 为 真 的 位 点 。 从 上 述 定义 可 知 ，TP 和 FN 表示 
的 是 所 有 真实 剪接 位 点 的 序列 集合 ， 而 FP 和 TN 表示 的 是 所 有 虚假 位 点 的 序列 集合 ， 如 
所 示 。 

然后 就 可 以 比较 方便 的 得 到 Sn”™” 和 Sn™* 的 定义 。Sn 是 Sensitivity( 敏 感度) 的 简写 : 
TP je 1N 


TP+FN TN+FP 
定义 可 知 , Sn 表示 为 所 有 真实 位 点 预报 为 真实 位 点 的 比率 , 即 真实 位 点 识别 率 ; 而 Sn** 


表示 所 有 虚假 位 点 中 预报 为 虚假 位 点 的 比率 ， 即 错误 位 点 识别 率 。 
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Sn true 




































































两 类 前 切 点 ( two class ) 
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附录 1 Linux 使 用 简介 


Linux 常用 命令 














久久 命令 可 用 在 其 他 任何 命令 的 后 面 ， 它 用 来 通知 计算 机 在 后 台 运 行 某 一 命令 。 通 过 把 作业 
放 在 后 台 ， 用 户 可 以 继续 使 用 当前 的 shell 来 处 理 其 他 命令 ;如 果 命 令 在 前 台 运 行 的 话 ， 那 
么 用 户 在 此 进程 结束 前 不 能 继续 使 用 当前 的 shell。 





































































































adduser 
adduser 命令 由 root 或 其 他 具有 权限 的 管理 员 用 来 创建 新 用 户 ， 跟 在 adduser 命令 后 面 的 是 
所 要 创建 的 帐号 名 ， 例 如 : adduser flying 























alias 
alias 命令 用 来 设置 命令 的 别名 或 替代 名 。 一 般 说 来 别名 往往 是 实际 命令 名 的 缩写 。 例 如 


户 为 ls 设置 一 个 别名 dir: 












































alias dir=ls 
若 仅 输入 alias 本 身 时 ， 系 统 将 显示 当前 所 有 的 别名 。 
bg 

g 命令 用 来 迫使 被 挂 起 的 进程 在 后 台 运行 。 例 如 ， 当 你 已 经 在 前 台 启 动 了 一 个 命令 时 ( 没 
有 在 此 命令 后 使 用 &) ， 你 才 想 到 这 一 命令 将 运行 较 长 一 段 时 间 ， 但 你 这 时 还 需 使 用 shell。 
在 这 种 情况 下 ， 可 通过 ctrltz 挂 起 当前 运行 的 进程 。 此 时 你 既 可 以 使 它 长 期 挂 起 ， 也 可 以 通 
过 输入 bg 把 这 一 进程 放 到 后 台 运行 。 这 样 shell 就 可 以 用 来 执行 其 他 的 命令 了 。 














































































































cat 


cat 通常 是 用 来 在 屏幕 上 滚动 显示 文件 的 内 容 。 它 的 格式 是 : 











cat 《〈filenamey 

cd 

cd 用 来 改变 目录 。 这 一 命令 非常 有 用 ， 它 有 三 种 典型 的 使 用 方法 。 
cd 移 到 目录 树 的 上 一 层 

cd~ 移 动 到 用 户 的 主 目录 ， 与 单独 使 用 cd 相同 

cd directory name 改变 到 指定 的 目录 
































cp 
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cp 用 来 拷贝 对 象 。 例 如 要 把 filel 拷贝 到 file2， 用 如 下 命令 : 

cp filel file2 

dd 

dd 命令 用 来 转换 文件 格式 。 

fg 

fg 命令 用 来 激活 某 个 被 挂 起 的 进程 并 使 它 在 前 台 运 行 。 当 有 一 个 进程 正在 运行 时 ， 由 于 某 
种 原因 需要 挂 起 它 ， 在 执行 完 其 他 任务 后 ， 需 要 重新 把 这 一 进程 调 到 前 台 运 行 ， 这 时 便 可 用 


bg 命令 使 这 一 进程 继续 运行 。 






































































































































find 
find 命令 用 来 查找 指定 目录 的 文件 。 当 找到 后 将 按照 用 户 的 要 求 对 文件 进行 处 理 。 语 泣 
find 以 它 为 起 点 进行 搜索 的 目录 想 要 查找 的 文件 名 或 元 字符 对 文件 执行 的 操作 


























MH 
Fu 





























grep 

grep 命令 用 来 在 指定 的 对 象 中 搜索 指定 的 文本 。 语 法 是 : grep (text) 〈file〉。 它 还 可 以 和 
其 他 命令 的 结果 联合 使 用 ， 例 如 : 

ps -eflgrep-v root 

这 一 命令 要 求 grep 接受 ps 命令 的 输出 ， 并 除去 所 有 包含 单词 root 的 进程 (-v 的 含义 是 显示 
与 文本 不 匹配 的 内 容 ) 。 在 不 使 用 -v 选项 时 ， 这 一 命令 将 显示 进程 清单 中 所 有 包含 单词 root 
的 进程 。 
halt 


halt 命令 用 来 通知 内 核 关闭 系统 ， 它 是 一 个 只 能 由 超级 用 户 执 行 的 命令 。 
































































































































hostname 


既 可 以 用 来 显示 系统 当前 的 主机 名 或 域名 ， 也 可 用 来 设置 系统 的 主机 名 。 














login 


当 向 系统 注册 时 ， 将 使 用 login。login 命令 也 可 用 来 随时 从 这 一 用 户 改变 到 另 一 用 户 。 





























logout 
logout 命令 用 来 使 当前 用 户 从 系统 中 注销 。 如 果 这 是 你 使 用 的 注册 到 系统 的 唯一 用 户 ， 那 么 


将 退出 系统 。 
























































ls 
ls 命令 用 来 列 出 目录 的 内 容 ， 它 的 输出 格式 可 通过 选项 来 控制 。 没 有 任何 选项 的 ls 命令 将 
按照 字母 顺序 列 出 所 有 非 隐 藏 文件 ， 显示 的 列 数 以 正好 适合 窗口 的 大 小 为 准 。 最 常用 的 一 组 





全 














ee 
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选项 是 -la。 这 


细 的 长 列表 。 








more 
more 是 一 个 过 
进行 翻 页 。 


mount 





a 表示 要 列 出 所 有 的 文人 
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iT 








滤 程 序 ， 它 可 以 每 次 一 屏 地 翻阅 文本 文件 的 内 容 。 这 一 命令 























VTS 


1 表示 以 长 格式 列 出 ， 它 使 答 出 结果 成 为 一 个 详 





让 




















能 对 文件 向 下 


Vy 





mount 命令 用 来 把 特殊 文件 (通常 是 设备 名 ) 指定 的 文件 系统 安装 在 作为 一 个 参数 被 指定 的 
目录 上 。 只 有 超级 用 户 能 够 安装 文件 。 如 果 在 运行 mount 命令 时 不 使 用 任何 参数 ， 它 将 列 














出 当前 被 安装 的 所 有 文 伯 


my 











myv 命令 用 来 把 某 个 对 象 从 这 一 位 
的 目录 , 那么 这 一 命令 将 把 命令 行 中 指定 


件 ，myv 将 把 第 一 个 文件 
























































的 变量 才 可 以 超过 两 个 。 


ps 




















F 系 统 。 















































和 置 移动 到 男 一 位 


。 如 果 最 后 一 个 变量 指定 的 是 一 个 现 有 























F 移 到 第 二 个 文件 ， 

















的 所 有 文件 移 到 这 一 目录 中 ; 如 果 给 出 的 是 两 个 文 





















































。 只 有 当 最 后 一 个 变量 是 一 个 目录 时 ，my 命令 











ps 用 来 报告 进程 的 状态 ， 它 将 显示 一 张 当前 进程 的 快照 。 











rm 





rm 用 来 删除 指定 的 文件 。 利 用 -r 选项 ，rm 将 递归 地 删除 文件 (warning: 和 危险) 。rm 可 与 


find 命令 联合 使 用 ， 查 找 某 一 文件 并 删除 它 。 


rmdir 

















rmdir 用 来 删除 指定 的 空 目 录 。 语 法 是 : 











rm (directory name) 


umount 




















umount 命令 
umount (filena 


unalias 














来 和 载 文件 。 








me) 





语法 


氏 





在 缺 省 的 情况 下 ，rm 命令 不 能 删除 目录 。 











unalias 用 来 取消 别名 。 如 前 面 曾 把 dir 设置 为 ls 命令 的 别名 ， 要 取消 它 只 须 输入 unalias dir 
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unzip 用 来 列 出 、 检 测 或 从 某 个 zip 文档 中 抽取 文件 ， 它 的 缺 省 用 法 是 从 文档 中 抽取 文件 。 


其 基本 语法 是 : 














unzip (filename) 

who 

who 命令 用 来 显示 当前 注册 到 系统 的 每 个 用 户 的 注册 名 、 终 端 类 型 \ 注 册 时 间 和 远程 主机 名 。 
如 果 有 两 个 非 选 项 的 参数 传递 给 who 命令 , 那么 它 将 打印 出 正在 运行 此 命令 的 用 户 的 信息 。 
如 果 想 要 查看 某 一 对 话 所 持续 的 时 间 ， 可 利用 -u 选项 。 























Em 



































XSet 








xset 命令 用 来 设置 X Window 环境 中 的 一 些 选 项 ， 可 利用 它 来 设置 响 铃 (xserb 《volume) 












































《frequency〉《duration in milliseconds》) 、 鼠 标 速度 (xset m 《acceleration〉 《threshold》 ) ， 
以 及 其 它 参 数 。 

zip 

zip 命令 用 来 列 出 、 检 测 或 向 某 个 zip 文档 中 添加 文件 ， 它 的 缺 省 用 法 就 是 向 某 个 文档 中 添 
加 文件 。 




















VI- 从 入 门 到 精通 


正式 开始 
vi 的 模式 

vi 是 在 很 久 以 前 就 写 的 程序 。 在 那个 时 候 , 键盘 上 没有 现在 熟悉 的 那么 多 功能 键 。 所 以 ， 
vi 设计 成 通过 输入 字符 和 ESC 来 控制 输入 和 修改 文本 。 

可 能 这 对 于 一 些 人 来 说 是 个 遗憾 , 但 是 你 会 发 现 你 不 需要 改变 手 在 键盘 上 的 位 置 就 可 以 
完成 所 有 的 功能 。 结 果 是 你 的 输入 将 快速 起 来 。 

为 了 完成 交互 的 全 屏幕 编辑 工作 ，vi 有 三 种 模式 。 插 入 模式 (inserb 用 于 输入 文本 。 在 插 
入 模式 下 ， 你 输入 的 任何 字符 都 将 显示 在 屏幕 并 存 于 文件 。 命 令 (command) 模 式 用 于 大 多 数 
编辑 功能 。 在 命令 模式 下 ， 所 有 的 输入 都 将 产生 一 定 的 响应 而 不 是 直接 到 文本 中 ,例如 移动 
光标 、 删 除 一 块 文本 、 找 贝 文本 等 。 第 三 个 模式 是 执行 另外 的 功能 ， 例 如 查找 、 全 局 替换 、 
处 理 多 个 文件 等 。 这 种 模式 是 基于 ex 编辑 器 的 。 
启动 Yi 

当 vi 启动 后 ， 默 认 的 模式 是 命令 模式 。 按 照 下 面 的 步 又 试 一 试 : 输入 程序 名 称 启动 vi: 
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或 
> 





$vi 
你 将 看 到 类 似 下 面 的 东西 





二 
中 











一 
一 
一 


一 


Empty buffer 
i-- 插 入 

现在 我 们 输入 "i" 进 入 插入 模式 。 字 符 "i" 将 不 会 回 显 。 此 后 你 输入 的 任何 东西 都 将 显示 
在 缓存 中 。 现 在 我 们 来 输入 一 段 文字 。 例子 中 的 话 来 自 英 文 版 的 孙子 兵法 。 注意 光 标的 位 置 
在 例子 中 是 个 下 划 线 。 


If wise, a commander is able to recognize changing circumstances and to 








守 












































act expediently. If sincere, his men will have no doubt of the certainty of 

rewards and punishments. If humane, he loves mankind, sympathizes with others， 
and appreciates their industry and toil. If courageous, he gains victory by 

seizing opportunity without hesitation. If strict, his troops are disciplined 

because they are in awe of him and are afraid of punishment. 

Shen Pao-hsu ... said: Tf a general is not courageous he will be unable 


to conquer doubts or to create great plans.' 


性 
~ 


~ 


Esc--Cancel 

当 你 输入 完了 ， 按 下 Esc 键 返回 到 命令 模式 。( 如 果 你 已 经 处 于 命令 模式 下 ， 按 Esc 时 
会 听 到 喇叭 的 声音 。)Esc 可 以 撤消 未 完成 的 命令 和 终止 插入 模式 。 按 Esc 后 ， 光 标 将 停留 在 
你 最 后 输入 的 字符 的 下 面 。 
很 不 地， 没有 一 个 明显 的 标志 表明 你 现在 处 于 什么 模式 下 。 但 是 有 简单 的 方法 来 告诉 你 
现在 你 所 处 的 模式 。 如 果 你 按 下 键 ， 相 应 的 字符 出 现在 屏 莫 上， 那么 你 是 在 插入 模式 下 ， 否 
则 是 命令 模式 下 。 如 果 你 不 能 确定 你 现在 所 处 的 模式 , 那么 按 Esc 两 次 以 听 到 喇叭 声 来 确信 
你 在 命令 模式 下 。 
移动 光标 和 简单 的 编辑 
是 看 一 看 基本 的 移动 光标 命令 的 时 候 了 。 训练 训练 你 的 手指 , 让 他 们 以 后 自动 的 执行 你 


所 想 的 命令 吧 。 
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或 
> 


NG 


最 重要 的 移动 命令 

让 我 们 来 看 看 有 多 少 影响 光标 移动 的 命令 。 
hh-- 光 标 左 移 

首先 ， 按 5 下 让 光标 左 移动 5 个 (如 果 你 看 到 h 跑 到 屏幕 上 了 的 话 ， 一 定 是 你 忘记 了 
按 Esc)。 光 标 现在 应 该 在 "plans" 中 的 "p" 下 面 (看 下 面 的 例子 ): 


If wise, a commander is able to recognize changing circumstances and to 



































act expediently. If sincere, his men will have no doubt of the certainty of 

rewards and punishments. If humane, he loves mankind, sympathizes with others, 
and appreciates their industry and toil. If courageous, he gains victory by 

seizing opportunity without hesitation. If strict, his troops are disciplined 

because they are in awe of him and are afraid of punishment. 

Shen Pao-hsu ... said: TIf a general is not courageous he will be unable 


to conquer doubts or to create great plans.' 


~ 
~ 
~ 


kk-- 光 标 上 移 

现在 我 们 来 按 5 次 上 让 光标 上 移 5 行 。 也许 你 该 认为 应 该 有 快捷 方式 了 。 好, 现在 就 有 
个 简单 的 方法 : 在 你 要 采取 的 行动 前 加 上 数字 。 按 下 5k 你 可 以 和 按 5 下 k 有 相同 的 结果 了 。 
光标 现在 该 在 "he" 的 "e" 下 了 。 


If wise, a commander is able to recognize changing circumstances and to 



































act expediently. If sincere, his men will have no doubt of the certainty of 

rewards and punishments. If humane, he loves mankind, sympathizes with others, 
and appreciates their industry and toil. If courageous, he gains victory by 

seizing opportunity without hesitation. If strict, his troops are disciplined 

because they are in awe of him and are afraid of punishment. 

Shen Pao-hsu ... said: 'Tf a general is not courageous he will be unable 


to conquer doubts or to create great plans.' 


一 


一 























在 使 用 这 些 功能 的 时 候 有 些 限 制 的 例如 使 用 h 或 1 移动 光标 超过 了 一 行文 字 的 头 或 尾 ， 
光标 将 停留 在 头 或 尾部 ， 喇 叭 鸣叫 提醒 你 。 
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还 有 其 他 的 类 似 h 和 k 的 吗 ? 看 一 看 表 1。 最 好 的 熟悉 他 们 的 的 方法 是 多 用 他 们 。 














表 1. 常见 的 方向 键 
命令 移动 

h 左 一 个 字符 

j 下 一 行 

k 上 一 行 

1 右 一 个 字符 

w,W 前 一 个 单词 (W 忽略 标点 ) 
b,B 后 一 个 单词 (B 忽略 标点 ) 

$ 到 行 尾 

^ 到 行 首 第 一 个 非 空 字符 

0 行 首 


G 到 缓冲 首 






























































nG 到 第 nm 行 

大 小 写 的 命令 是 有 一 些 区 别 的 。 小 写字 母 一 般 以 标点 区 分 "words.", 而 大 写 则 忽略 他 们 。 
最 重要 的 编辑 程序 

让 我 们 看 看 最 简单 也 是 最 常用 的 编辑 过 程 : 

修改 没有 人 不 犯错 误 。 所 以 迟早 你 会 碰 到 修改 你 输入 的 文本 的 时 候 。 实 际 上 花 在 字 处 理 
上 的 大 多 数 时 间 是 修改 而 不 是 输入 新 的 东西 。 因 此 ， 你 要 知道 如 何方 便 地 修改 就 很 重 
x-- 删 除 一 个 字符 删除 文字 的 最 简单 的 方式 是 用 x。 这 个 命令 的 结果 是 光标 所 处 的 字符 的 消 
失 ， 后 面 的 文字 左 移动 。 如 果 你 删除 的 字符 是 一 行 最 后 的 一 个 字符 ， 那 么 光标 将 向 左 移动 一 
个 ， 这 样 光标 就 不 会 停留 在 不 存在 的 字符 的 下 面 了 。 假 如 没有 任何 文字 了 ， 喇 叭 就 叫 。 
d-- 删 除 对 象 这 个 命令 的 右边 还 要 有 一 定 的 文字 对 象 。 文 字 对 象 就 是 一 块 文字 。 他 右边 接 的 
就 是 在 控制 光标 移动 的 那些 字符 。 例 如 w 表示 向 前 一 个 单词 ， 那 么 dw 将 删除 下 一 个 单词 。 
5w 表示 前 进 5 个 单词 ， 那 么 d5w 将 删除 他 们 。 
dd-- 删 除 一 行 最 常用 的 d 系列 命令 之 一 。 和 前 面 一 样 ，5dd 将 删除 5 行 
D-- 整 个 删除 大 写 形式 的 D 用 来 删除 从 光标 到 行 尾 。 和 d$ 一 样 效果 。 
u-- 恢 复 要 后 悔 吗 ? 他 不 仅仅 撤消 删除 ， 还 撤消 你 所 有 的 编辑 工作 。 
.-- 重 复 重 复 编辑 工作 。 





















































了 王 
女 o 











ol 
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附录 1 Linu 使 用 


补充 一 些 关 于 set 命令 的 东西 吧 。 






































> 




















:set sw 《使 用 ai 时 定义 向 后 制 表 符 的 空格 数 ) 
:set ai 《在 插入 模式 ， 保 持 缩 进 ， 与 sw 一 起 使 用 ) 





:set aw 或 noaw (auto write) 


:set nu 或 nonu Cnumbernonumber) 


:set sm 或 nosm 〈 配 合 小 括号 或 大 括号 ) 














:set showmode 或 noshowmode 


GNU make 指南 


0) 介绍 


本 文 将 首先 介 乡 














分 ， 怎 么 才能 分 的 好 。 然 后 将 会 告诉 你 GNU Make 怎样 使 你 的 编 i 
它 类 似 工具 时 要 做 适当 的 调整 ， 本 文 的 内 容 


程 工具 有 怀 疑 ， 可 以 实际 的 试 一 试 ， 但 请 先 阅读 用 


对 于 其 它 Make 工具 的 


仍然 是 非常 有 用 的 。 如 果 对 你 自己 的 编 





户 手册 。 
D 多 文件 项 目 









































] 户 来 说 ,虽然 在 用 














1.1 为 什么 使 用 它们 ? 
首先 ， 多 文件 项 目的 好 处 在 那里 呢 ? 


它们 看 起 来 把 























情 





弄 上 






































里 ， 当 你 改动 其 ! 





寺 : 企 妆 伯 






























































有 什么 原因 








编译 缩短 为 十 几 ， 二 十 几 秘 的 简单 调整 。 
只 要 通过 基本 的 规划 , 将 一 个 项 目 分 解 成 多 个 小 文件 





4 














去 重 
连接 所 有 的 目标 文件 轻 了 。 在 大 型 的 项 目 




















本 


很 简单 ， 你 根据 代码 的 作 月 











以 准确 的 知道 在 为 
























































EB 个 文人 


F 中 去 寻找 它 。 


支持 我 们 把 
成 一 个 新 的 可 执行 文件 。 
F 的 时 候 ， 别 的 源 文件 
新 编译 它们 。 你 所 需要 做 的 


把 你 的 代码 分 解 到 不 同 的 文件 














sw 











为 什么 要 将 你 的 C 源 代码 分 离 成 儿 个 合理 的 独立 档案 ， 什 么 时 





eo 


候 需 要 








对 和 连 接 步 又 











动 化 。 























的 复杂 无 比 。 又 要 header 文件 ， 又 要 extern 声明 ， 而 | 
要 查找 一 个 文件 ， 你 要 在 更 多 的 文件 里 搜索 。 

但 其 实 我 们 有 很 有 力 的 理 
译 器 需要 全 部 重新 编译 来 4 

















中 ， 这 意味 着 从 4 











AI 
































了 王 


你 要 




















b 个 文 件 , 然后 重新 
民 长 的 〈 几 分 钟 到 几 小 时 ) 重新 


量 如 果 需 


个 项 目 分 解 成 小 块 。 当 你 改 动 一 行 代码 ， 编 
3 如 果 你 的 项 目 是 分 开 在 几 个 小 文件 
的 目标 文件 (object files) 已 经 存在 ， 所 以 没 


只 是 重 现 编译 被 改动 过 的 习 





F 可 使 你 更 加 容易 的 找到 一 段 代码 。 
看 一 段 代码 时 ， 你 可 
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Se 











从 很 多 目标 文件 生成 一 个 程序 包 (Library) 比 从 一 个 单一 的 大 目标 文件 生成 要 好 的 多 。 





当然 实际 上 这 是 否 真是 一 个 优势 则 是 由 你 所 用 的 系统 来 决定 的 。 但 
译 / 连接 器 ) 把 一 个 程 序 包 连接 3 








GNUC 编 


连接 没有 



























































FP 任何 一 个 符号 的 话 ， 



































站 一 个 程序 时 ,在 连接 的 过 程 中 ,， 它 会 尝试 不 去 
使 用 到 的 部 分 。 但 它 每 次 只 能 从 程序 包 中 把 一 个 完整 的 目标 文件 排除 在 外 。 


如 果 你 参考 一 个 程序 包 中 茶 一 个 目标 档 站 那么 这 个 











是 当 使 用 gcc/ld (一 个 

















因此 


目标 文件 整个 都 会 











被 连接 进来 。 要 是 一 个 程序 包 被 非常 充分 的 分 解 了 的 话 ， 那 么 经 连接 后 ， 得 到 的 可 执行 文 








又 














可 以 很 容易 的 追踪 到 外 9 

















1.2 何 时 分 解 你 的 项 目 


很 明显 ， 把 任何 东西 都 分 解 是 不 合 型 
办 为 实在 也 没什么 可 分 的 。 


bb 
能 分 ， 





AI 











来 说 ， 


这 都 是 适 






































当 分 解 项 目 有 助 于 布局 、 发 
的 。( 所 谓 “ 世 界 ， 























件 会 比 从 一 个 大 目标 文件 组 成 的 程序 包 连 接 得 到 的 文件 小 得 多 。 
因为 你 的 程序 是 很 模块 化 的 ,文人 





F 之 间 的 共享 部 分 被 减 到 最 少 , 那 





就 有 很 多 好 处 一 一 














EE， 这 些 模 块 经 常 是 可 以 用 在 其 它 的 项 目 里 的 


容易 的 理解 你 的 一 段 代码 是 干 什么 的 。 当 然 此 外 还 有 许多 别 的 好 处 


的 。 象 “世界 ， 你 们 好 ”这 




















惯用 的 范例 程序 ， 它 会 在 屏幕 
如 果 你 需要 开发 一 个 相当 大 的 项 目 ， 在 




















几 个 文件 《 























整体 结构 也 进行 相应 的 调整 。 








对 于 中 型 的 项 目 , 你 当 
当 你 的 码 多 到 难以 管理 的 时 候 再 把 





然 也 可 








适当 的 名 字 ) 来 放 你 的 代码 。 
新 的 文件 , 但 如 果 你 这 么 做 的 话 ， 说 明 你 可 能 改变 了 当初 的 想法 ， 你 应 该 想 想 是 否 





以 采 月 





























J 


严 用 于 测试 用 的 小 程序 分 解 也 


























同时 别人 也 可 以 更 


~ 


样 的 简单 程序 根本 就 不 








是 没什么 意思 的 。 但 一 般 


展 和 易 读 性 的 时 候 ， 我 都 会 采取 它 。 在 大 多 数 的 情况 下 ， 












































你 们 好 ”， 既 hello world' ， 只 是 一 个 介 绍 一 种 编程 语言 时 
上 显示 一 行 hello world' 。 是 最 简单 的 程序 。) 
开始 前 ， 应 该 考虑 一 下 你 将 如 何 实现 它 ， 并 且 生 成 




















当然 ， 在 你 的 项 














开发 的 过 程 中 ， 你 可 以 建立 

















= HE 


天 





对 





F 述 技巧 , 但 你 也 可 以 就 姑 








它们 分 解 成 不 同 的 档案 。 但 以 我 的 经 验 来 说 ， 开 始 时 在 











脑子 里 形成 一 个 大 概 的 方案 ， 


会 使 开发 变 得 更 加 容易 。 
1.3 怎样 分 解 项 目 




















一 些 个 人 观点 ， 供 参考 : 





iD 不 要 用 一 个 header 文 伯 


header 定义 一 个 源码 文人 














F 指 向 多 个 源码 文人 





并 且 尽 量 遵从 它 ， 或 在 开发 过 程 中 ， 











F (例外: 程序 包 的 header 文件 


Bb 么 开 始 输入 你 的 代码 ， 








随 着 程序 的 需要 而 修改 ， 























)s 


一 个 























F 的 方式 会 更 有 


i 新 编 


且 它 的 header 文件 ) 就 必须 


说 如 果 可 以 的 话 ， 完 全 






































效 , 也 更 容易 查寻 。 否则 改变 一 个 源 文件 的 结构 (3 
译 好 几 个 文件 。 
可 以 用 超过 一 个 的 header 文件 来 指向 


























同 一 个 源码 文件 。 有 时 
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将 不 可 公 





调用 的 函数 原型 ， 类 型 定义 








Se 








回放 





符 竺 
本 











从 它们 的 C 源码 文件 ， 





分 离间 








Ar 上品 


何人 








压 





公 








的 。 使 用 一 个 header 文人 天 














za 


有 符 





日 另 一 个 装 私 人 


> 























码 文件 的 内 部 结构 ， 你 可 以 只 是 重 
件 的 其 它 的 源 文件 。 























译 





那些 使 用 它 的 公 

















iii) 不 要 在 多 个 header 文人 





个 信息 ， 你 只 


需要 把 它 改 变 一 次 ， 不 用 


iv) 在 每 一 个 源码 文件 里 ，#include 

















F 中 重复 定义 信息 。 如 


#include 另 一 个 ， 但 是 不 要 重复 输入 相同 的 header 信 ， 


大 旺 三 
果 需 要 ， 























H 来 是 非常 有 用 
号 意味 着 如 果 你 改变 了 这 个 源 
所 编译 它 而 不 需要 重新 编 


在 其 中 一 个 header 文件 


是 如 果 你 以 后 改变 了 这 























开 header 文 








搜索 并 改变 另外 一 个 重复 的 信息 。 
那些 声明 了 源码 文件 中 的 符 号 的 所 有 header 文件 。 




















这 样 一 来 ， 你 在 源码 文人 
器 发 现 。 
1.4 对 于 常见 错误 的 注释 

a) 定义 符 (Identifier) 在 源码 文 伯 





FA 和 header 文件 对 某 些 函数 做 


F 中 的 矛 


























秆 : 在 C 里 ， 变 量 条 




















因 











此 ， 任 何 C 源 码 档案 都 可 以 引用 存在 了 
































它 源码 档 中 的 通 








j(global) 也 | 














[函数 的 缺 省 状态 是 
数 和 通用 变量 ， 既 


的 矛盾 声明 可 以 比较 容易 的 被 编译 


公 


月 





日 的 。 

















使 这 个 档案 没有 那个 变量 或 函数 








的 声明 或 原型 。 








因此 你 必须 保证 在 不 同 的 











za 


符 

















| 同一 个 符号 名 称 ， 否 则 会 有 





连接 错误 




















或 者 在 编译 时 会 有 警告 。 
































一 种 避免 这 种 错误 的 方法 是 在 公 











si 


J 在 gfx.c 

















名 称 ， 并 且 不 是 过 分 使 用 通用 变量 ， 当 
要 防止 一 个 符号 在 它 被 定义 的 源 文 











的 符号 前 加 J 





HH 





上 跟 其 所 在 源 文 











F 有 关 的 前 级 。 比 如 : 所 
的 函数 都 加 上 前 级 “gf 仪 ”。 如 果 你 很 小 心 的 分 解 你 的 程序 ， 使 用 有 意义 的 函数 














然 这 根本 就 不 是 问题 。 


件 以 外 被 看 至 




















这 对 只 在 一 个 档案 内 部 使 用 ， 其 它 档案 





b) 多 次 定义 的 符号 : header 档 会 被 逐 字 的 替换 到 你 源 文 件 里 #include 的 位 置 的 。 因 
如 果 header 档 被 #include 到 一 个 以 上 的 源 文件 


一 个 有 关 的 源码 文 伯 























都 都 不 会 用 到 的 简单 函数 是 很 有 


















































解决 方法 : 不 要 在 header 档 里 定义 变量 。 你 只 需要 





的 C 源 码 文件 (应 该 #include 那个 header 档 的 那个 ) 














定义 它们 《〈 一 次 )。 对 了 




















定义 和 声明 是 很 容易 混淆 的 。 声 明 的 作 











所 指定 的 类 型 。 但 是 ， 它 并 不 会 使 编译 器 分 配 贮 存 空 间 。 而 定义 的 做 月 

















|， 可 在 它 的 定义 前 加 上 关键 字 “static”。 


此 ， 








,这 个 header 档 中 所 有 的 定义 就 会 出 现在 每 


。 这 会 使 它们 里 的 符号 被 定义 一 次 以 上 ， 从 而 





b 现 连接 错误 ( 见 上 )。 
在 header 档 里 声明 它们 然后 在 适当 
初学 者 来 说 ， 
j 是 告诉 编译 器 其 所 声明 的 符号 应 该 存在 , 并 且 要 有 























昌 是 要 求 编 























存 空间 。 当 做 一 个 声明 而 不 是 做 定义 的 时 候 ， 在 声明 前 放 一 个 关键 字 “extern”。 





例如 , 我 们 有 一 个 叫 “counter” 的 变量 , 如 果 想 让 它 成 为 公 








在 一 个 里 面 ) 的 


























声明 它 : 





译 右 分 配 贮 


的 , 我 们 在 一 个 源码 程序 (只 
于 始 定义 它 :“int counter”， 再 在 相关 的 header 档 


“extern int 
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counter;”。 

函数 原型 里 隐 含 着 extem 的 意思 ， 所 以 不 需 顾虑 这 个 问题 。 

c) 重复 定义 ， 重 复 声明 ， 了 矛盾 类 型 : 

请 考虑 如 果 在 一 个 C 源 码 文件 中 ##nclude 两 个 档 ah 和 b.h, 而 ah 叉 #include 了 bh 档 
(原因 是 b.h 档 定义 了 一 些 ah 需要 的 类 型 )， 会 发 生 什么 事 呢 ? 这 时 该 C 源 码 文件 #include 
了 b.h 两 次 。 因 此 每 一 个 在 b.h 中 的 #define 都 发 生 了 两 次 ， 每 一 个 声明 发 生 了 两 次 ， 等 等 。 
理论 上 ， 因 为 它们 是 完全 一 样 的 拷贝 ， 所 以 应 该 不 会 有 什么 问题 ,但 在 实际 应 用 上 ， 这 是 不 
符合 C 的 语法 的 ， 可 能 在 编译 时 出 现 错误 ， 或 至 少 是 警告 。 

解决 的 方法 是 要 确定 每 一 个 header 档 在 任 一 个 源码 文件 中 只 被 包含 了 一 次 。 我 们 一 般 
是 用 预 处 理 器 来 达到 这 个 目的 的 。 当 我 们 进入 每 一 个 header 档 时 ， 我 们 为 这 个 header 档 
#define 一 个 巨 集 指 令 。 只 有 在 这 个 巨 集 指令 没有 被 定义 的 前 提 下 , 我 们 才 真正 使 用 该 header 


档 的 主体 。 在 实际 应 用 上 ， 我 们 只 要 简单 的 把 下 面 一 段 码 放 在 每 一 个 header 档 的 开始 部 分 : 




























































































































































































#ifndef FILENAME H 

#define FILENAME H 

然后 把 下 面 一 行 码 放 在 最 后 : 

#endif 

用 header 档 的 档 名 (大 写 的 ) 代替 上 面 的 FILENAME H， 用 底线 代替 档 名 中 的 点 。 有 
些 人 喜欢 在 #endif 加 上 注释 来 提醒 他 们 这 个 #endif 指 的 是 什么 。 例 如 : 

#endif /* #ifndef FILENAME H */ 


我 个 人 没有 这 个 习惯 ， 因 为 这 其 实 是 很 明显 的 。 当 然 这 只 是 各 人 的 风格 不 同 ， 无 伤 大 


































































































你 只 需要 在 那些 有 编译 错误 的 header 档 中 加 入 这 个 技巧 ， 但 在 所 有 的 header 档 中 都 加 
入 也 没什么 损失 ， 到 底 这 是 个 好 习惯 。 
1.5 重新 编译 一 个 多 文件 项 目 
清楚 的 区 别 编译 和 连接 是 很 重要 的 。 编 译 器 使 用 源码 文件 来 产生 某 种 形式 的 目标 文件 
(object files)。 在 这 个 过 程 中 ， 外 部 的 符号 参考 并 没有 被 解释 或 替换 。 然 后 我 们 使 用 连接 器 
来 连接 这 些 目标 文件 和 一 些 标准 的 程序 包 再 加 你 指定 的 程序 包 ， 最 后 连接 生成 一 个 可 执行 
程序 。 在 这 个 阶段 ， 一 个 目标 文件 中 对 别 的 文件 中 的 符号 的 参考 被 解释 ， 并 报告 不 能 被 解 
释 的 参考 ， 一 般 是 以 错误 信息 的 形式 报告 出 来 。 

基本 的 步骤 就 应 该 是 , 把 你 的 源码 文件 一 个 一 个 的 编译 成 目标 文件 的 格式 ,最 后 把 所 有 
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的 目标 文件 加 


这 里 我 只 给 出 gcc (GNU 

















gcc 是 一 个 多 目标 的 工具 。 
合 程序 ， 连 接 器 )。 其 体 的 哪些 元 件 被 呼叫 取决 于 输入 文 从 
一 般 来 说 ， 如 果 你 
得 的 目标 文件 连接 成 一 个 可 执行 文件 〈 一 般 生成 的 文 从 
做 ， 但 这 会 破坏 很 多 我 们 把 一 个 项 目 分 解 成 多 个 文 们 
F 关 ，gcc 只 把 给 它 的 文人 












































上 需要 的 程序 包 连 接 成 一 个 可 执行 文 们 























如 果 你 给 它 一 个 -c 六 





让 








名 但 把 其 后 绥 由 “ce” 或 “.ce” 变 成 “.0” 


可 执行 文人 





F， 缺 省 文 伯 








#include 过 这 个 档 的 源码 文 伯 
当然 这 么 做 是 很 繁琐 的 ， 和 幸亏 我 们 有 些 了 








介绍 其 中 的 一 件 工具 : 


2) GNU Make 工具 

















F 名 是 a.out 。 





GNU Make 工具 。 


2.1 基本 makefile 结构 


GNU Make 的 主要 工作 是 读 进 一 个 文本 文 们 
件 (‘target* 目 的 文件 ) 是 从 明 
来 进行 这 个 产生 过 程 。 有 了 这 些 信息 ，make 会 检查 磁 碟 上 的 文 从 





《该 文件 生成 或 被 改 如 

















令 ， 以 便 更 新 目的 文件 





























只 给 它 C 源码 文件 





























F。 具 体 怎么 做 是 由 你 的 编译 器 决定 的 。 
C 编译 器 ) 的 有 关 命 令 ， 这 些 有 可 能 对 你 的 非 gcc 编译 器 也 适用 。 
它 在 需要 的 时 候 呼 叫 其 它 的 元 件 ( 预 处 理 程序 ， 编 译 器 ， 组 
的 类 型 和 你 传递 给 它 的 开关 。 

编译 ， 组 合 所 有 的 文件 ， 然 后 把 所 
F 被 命名 为 aout )。 你 当然 可 以 这 么 
























































F 编 译 成 目标 文件 ， 

的 是 一 列 目标 文人 
你 可 以 改变 缺 省 名 ， 用 了 
因此 ， 当 你 改变 了 一 个 源码 文件 后 ， 你 需要 重新 编译 
接 你 的 项 目 : 'gcc -o exec filename *.o'。 如 果 你 改变 了 一 个 header 档 ， 你 需要 重新 编译 所 有 


EF， 你 可 以 用 'gcc -c filel.c file2.c file3.c' 然 后 象 上 边 一 样 连接 。 





























: 'gcc -c filename.c' 然 后 重新 连 








| 源码 文件 的 文件 名 命 
F，gcc 会 把 它们 连接 成 


开关 -o 后 跟 你 指定 的 文件 名 。 





















































[ 具 使 这 个 步 又 变 得 简单 。 本 文 的 第 二 部 分 就 是 











FE，makefile。 这 个 文 伯 











b 些 别 的 文件 (‘dependencies’ 依 靠 文 付 














时 的 时 间 ) 比 至 少 它 的 一 个 依靠 文 伯 
EF。( 目 的 文件 不 一 定 是 最 后 的 可 执行 档 ， 
































主要 是 有 关 哪 些 文 





产生 的 ， 用 什么 命令 
， 如 果 目 的 文件 的 时 间 和 性 
4 话 ，make 就 执行 相应 的 合 
J 以 是 任何 一 个 文件 。) 


























makefile 一 般 被 叫做 “makefile” 或 “Makefile”。 当 然 你 可 以 在 make 的 命令 行 指定 别 的 文 








的 。 


一 个 makefile 主要 含有 一 系列 的 规则 ， 如 下 : 


(tab) 


(tab) 


件 名 。 如 果 你 不 特别 指定 ， 它 会 寻找 “makefile” 或 “Makefile”， 




















这 两 个 名 字 是 最 简单 
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做 为 它 的 主要 目标 (一 个 


“myprog” 比 文件 'foo.o" 或 "baro? 





附录 1 Linu 使 


例如 ， 考 虑 以 下 的 makefile: 


人 一 一 一 
介 = 一 一 


makefile 开 


myprog : foo.o bar.o 

gcc foo.o baro -o myprog 
foo.o : foo.c foo.h barh 

gcc -c foo.c -o foo.o 
bar.o : bar.c barh 

gcc -c bar.c -0 bar.o 


=== makefile 结束 === 














这 是 一 个 非常 基本 的 makefile make 从 最 











> 











/ 





上 面 开 始 ， 把 上 面 第 一 个 目的 ，‘myprog”， 











yg 4 





证 其 总 





要 保 
FP 的 任何 一 个 旧 


已 需 是 最 





~ 











党 


但 是 ， 在 检查 文 们 


























为 目标 文件 的 规则 。 它 找到 的 关于 foo.o 的 规则 ， 

它 从 下 面 再 找 不 到 生成 这 些 依 靠 文 件 的 规则 ， 它 就 开始 检查 磁 碟 上 这 些 依靠 文人 
如 果 这 些 文件 中 任何 一 个 的 时 间 戳 比 foo.o 的 新 ， 

文件 foo.o。 











F foo.o 和 baro 的 时 间 惟 之 前 ， 

















折 的 最 终 目 标 )。 给 出 的 规则 说 明 只 要 文件 
下 一 行 的 命令 将 会 被 执行 。 

它 会 往 下 查找 那些 把 foo.o 或 baro 做 

F 的 依靠 文 伯 








该 文 伯 F 是 foo.c, foo.h 和 bar.h。 
的 时 间 玲 。 


gcc -0 foo.o foo.c' 将 会 执行 ,从 而 更 新 























接 下 来 对 文件 baro 做 类 似 的 检查 ， 依 靠 文 伯 


到 “myprog” 的 规则 。 如 果 刚 才 














现在 ，make 加 











希望 到 此 ， 你 可 以 看 出 使 用 make 2 





因为 其 中 一 个 .o 档 就 会 比 'myprog’ 新 )， 因 


[有 具 来 建立 程序 的 好 处 


F 在 这 里 是 文件 barc 和 bar.h。 

两 个 规则 中 的 任何 一 个 被 执行 ，myprog 就 
此 连接 命令 将 被 执行 。 

前 一 章 中 所 有 繁琐 的 检查 






































































































































步骤 都 由 make 蔡 你 做 了 : 检查 时 间 戳 。 你 的 源码 文件 里 一 个 简单 改变 都 会 造成 那个 文件 被 
重新 编译 (因为 .o 文件 依靠 .c 文件 )， 进 而 可 执行 文件 被 重新 连接 〈 因 为 .o 文件 被 改变 了 )。 
其 实 真正 的 得 益 是 在 当 你 改变 一 个 header 档 的 时 候 一 一 你 不 再 需要 记 住 那个 源码 文件 依靠 
它 ， 因 为 所 有 的 资料 都 在 makefile 里 。make 会 很 轻松 的 蔡 你 重新 编译 所 有 那些 因 依靠 这 个 
header 文件 而 改变 了 的 源码 文件 ， 如 有 需要 ， 再 进行 重新 连接 。 

当然 ， 你 要 确定 你 在 makefile 中 所 写 的 规则 是 正确 无 误 的 ， 只 列 出 那些 在 源码 文件 中 


被 ##nclude 的 header 档 


2.2 























编写 make 规则 (Rules) 
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人 饥 介 

























































































附录 1 Linu 使 用 简介 

最 明显 的 (也 是 最 简单 的 ) 编写 规则 的 方法 是 一 个 一 个 的 查看 源码 文件 ， 把 它们 的 目标 
文件 做 为 目的 ， 而 C 源 码 文 件 和 被 它 ##include 的 header 档 做 为 依靠 文件 。 但 是 你 也 要 把 其 它 
被 这 些 header 档 #include 的 header 档 也 列 为 依靠 文件 ， 还 有 那些 被 包括 的 文件 所 包括 的 文 
件 .…… 然 后 你 会 发 现 要 对 越 来 越 多 的 文件 进行 管理 ,然后 你 的 头发 开始 脱落 ,你 的 脾气 开始 
变 坏 ， 你 的 脸色 变 成 菜色 ， 你 走 在 路 上 开始 跟 电 线 杆子 碰撞 ， 终 于 你 捣毁 你 的 电脑 显示 器 ， 
停止 编程 。 到 低 有 没有 些 容易 点 儿 的 方法 呢 ? 

当然 有 ! 向 编译 器 要 ! 在 编译 每 一 个 源码 文件 的 时 候 ， 它 实在 应 该 知道 应 该 包括 什么 样 
































的 header 档 。 





使 








把 目标 文人 





一 < 



































些 编译 时 间 ) 





由 gcc 输出 的 规则 不 会 含有 命令 部 
make 使 用 它 的 隐 含 的 规则 (参考 下面 


4 gcc 


-MM 来 代替 -M 传递 给 gcce， 那 些 月 


2.3 Makefile 变量 





F 面 提 到 


makefile 


过 程 








几乎 任何 地 方 被 引 朋 


iD 贮存 一 


名 做 为 依靠 。 在 这 个 规则 的 命令 行 里 同样 的 习 
里 使 用 一 个 变数 来 贮存 所 有 的 目标 文件 名 , 加 入 新 的 目标 文人 
F 名 。 如 果 你 的 项 目 被 用 在 一 个 非 gce 的 系统 




















这 贮存 可 执行 文 伯 





makefiles 








个 文件 名 








一 个 不 同 的 编 











译 器 , 你 ， 











必须 将 所 有 使 











的 时 候 ， 月 





-MJ 








日 角 提 





















































开关 ， 它 会 为 每 一 个 你 给 它 的 C 文件 输出 一 个 规则 ， 
F 做 为 目的 ， 而 这 个 C 文 件 和 所 有 应 该 被 #include 的 header 文件 将 做 为 
主意 这 个 规则 会 加 入 所 有 header 文件 ， 包 括 被 角 括 号 (<，`>') 和 双 引 号 C") 所 包围 的 文件 。 
其 实 我 们 可 以 相当 肯定 系统 header 档 ( 比 如 stdio.h, stdlib.h 等 等 ) 不 会 被 我 


依靠 文 件 。 























门 更 改 ， 如 果 你 

















分 : 
十 双 








列表 。 在 上 面 的 例 



































号 包围 的 header 档 将 不 会 被 包括 。( 这 会 节省 一 
你 可 以 自己 写 入 你 的 命令 或 者 什么 也 不 写 ， 而 让 
4 节 )。 





子 
































编译 器 的 


个 变量 来 代 蔡 编译 器 和 名， 那么 你 只 需要 改变 一 











> 








人 











生成 可 执行 文 从 


的 规则 包含 一 些 目标 文 们 
8 些 文 件 被 输送 给 gcc 做 为 命令 参数 。 如 果 在 这 


主要 包含 一 些 规 则 。 它 们 包含 的 其 它 的 东 西 是 变量 定义 。 

的 变量 就 像 一 个 环境 变量 (environment variable)。 事 实 上 ， 环 境 变 量 在 make 
FP 被 解释 成 make 的 变量 。 这 些 变 量 是 大 小 写 敏感 的 ， 一 般 使 用 大 写字 母 。 它 们 可 以 从 
昌 ， 也 可 以 被 用 来 做 很 多 事情 ， 比 如 : 






































也 方 改 成 用 新 的 编译 器 名 。 





地 方 ， 其 它 所 有 地 方 的 命令 


又 人 人 














ii) 贮存 编译 器 旗 标 。 假 设 你 想 给 你 所 有 的 编 


-g); 如 果 你 把 这 组 选项 存 入 一 个 变量 , 那么 你 可 以 把 这 个 变量 放 如 








传递 一 组 相同 的 选 


证 印信 











而 当 你 要 改变 选项 的 时 候 ， 你 只 需 在 一 个 地 方 改 变 这 个 变量 的 内 容 。 








要 设 定 一 个 变量 ， 你 只 要 在 

















行 的 开始 写 下 这 个 变量 的 名 字 ， 后 





E 所 有 呼叫 编 


F 会 变 的 简单 而 且 较 不 易 出 错 。 
， 或 者 如 果 你 想 使 月 








j 
但 是 如 果 使 用 一 
名 就 都 改变 了 。 
项 (例如 -Wall -O 


译 器 的 地 方 。 




















面 跟 一 个 = 号 ， 后 面 
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跟 你 要 设 定 的 这 个 变量 的 值 。 以 后 你 要 引用 这 个 变 
变量 名 。 比 如 在 下 面 ， 我 们 把 前 面 的 makefile 利 月 


=== makefile 开始 一 = 


OBJS = foo.o bar.o 
CC = gcc 
CFLAGS = -Wall -O -8g 





写 一 个 $ 符 号 ， 后 面 是 围 在 括号 里 的 























myprog : $(OBJS) 
$(CC) $(OBJS) -o myprog 


foo.o : foo.c foo.h bar.h 
$(CC) $(CFLAGS) -c foo.c -o foo.o 


bar.o : bar.c barh 
$(CC) $(CFLAGS) -c bar.c -0 bar.o 





=== makefile 结束 一 = 























还 有 一 些 设 定好 的 内 部 变量 , 它们 根据 每 一 个 规则 内 容 定义 。 三 个 比较 有 用 的 变量 是 $@， 
$< 和 $^《〈 这 些 变量 不 需要 括号 括 住 )。$@ 扩 展 成 当前 规则 的 目的 文件 名 ，$< 扩 展 成 依靠 列表 
的 第 一 个 依靠 文件 ， 而 3$^ 扩 展 成 整个 依靠 的 列表 《〈 除 掉 了 里 面 所 有 重复 的 文件 名 )。 利 用 
这 些 变量 ， 我 们 可 以 把 上 面 的 makefile 写成 : 


=== makefile 开始 一 = 
OBJS = foo.o bar.o 
CO= gcc 

CFLAGS = -Wall -O -8g 























myprog : $(OBJS) 
$(CC) $^ -o $@ 


foo.o : foo.c foo.h bar.h 
$(CC) $(CFLAGS) -c $<-0 $@ 


bar.o : bar.c bar.h 
$(CC) $(CFLAGS) -c $<-0 $@ 





=== makefile 结束 === 
你 可 以 用 变量 做 许多 其 它 的 事情 , 特别 是 当 你 把 它们 和 函数 混合 使 用 的 时 候 。 如 果 需 要 


更 进一步 的 了 解 ， 请 参考 GNU Make 手册 。(man make', 'man makefile) 


















































2.4 隐 含 规则 (mplicit Rules) 
请 注意 ,在 上 面 的 例子 里 ， 几 个 产生 .o 文件 的 命令 都 是 一 样 的 。 都 是 从 .c 文件 和 相关 文 
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件 里 产生 .o 文件 ， 这 是 一 个 标准 的 步骤 。 上 其 
规则 的 内 置 的 规则 ， 这 些 规则 告诉 它 当 你 没有 给 出 某 些 命令 的 时 候 ， 应 该 怎么 办 。 
它 


如 果 你 把 生成 foo.o 和 bar.o 的 命令 从 它们 的 规则 : 











然后 会 找到 一 个 适当 的 命令 。 它 

















并: 











译 器 >» Be 








在 不 用 考虑 这 个 )， 然 后 它 加 入 旗 标 '-c'， 
目的 文件 名 )。 一 个 C 编 译 的 具体 命令 将 














变量 $9@ ( 





简介 








附录 1 Linu 使 ) 


















































删除 , make 将 会 查找 


实 make 已 经 知道 怎么 做 一 一 它 有 一 些 叫 做 隐 含 


的 隐 含 规则 ， 


























的 命令 会 使 用 











后 面 跟 变 量 $<《〈 第 一 











些 变量 ， 因 此 你 可 以 按照 你 的 想法 来 设 定 
它 使 用 变量 CC 做 为 编译 器 《〈 象 我 们 在 前 面 的 例子 )， 并 且 传 递 变量 CFLAGS (给 C 编 


编译 器 用 CXXFLAGS )，CPPFLAGS 〈C 预 处 理 器 旗 标 )，TARGET_ARCH ( 现 





个 依靠 名 )， 然 后 是 旗 标 '-o' 跟 





$(CC) $(CFLAGS) $(CPPFLAGS) $(TARGET ARCH) -c $<-0 $@ 








当然 你 可 以 按 
输出 的 码 可 以 直接 


2.5 假象 目的 (Phony Targets) 




















假设 你 的 一 个 项 目 最 后 需要 产 4 














照 你 自己 的 需要 来 定义 这 些 变量 。 这 就 是 为 什么 用 gcc 的 -M 或 -MM 开关 


在 一 个 makefile 








E 两 个 可 执行 文件 。 你 的 主要 目标 是 产生 两 个 可 执行 文 








件 , 但 这 两 个 文件 是 相互 独立 的 一 一 如 果 一 个 文件 需要 重建 ， 并 不 影响 另 一 个 。 你 可 以 使 用 





“假象 目的 ”来 达到 这 种 效果 。 一 个 假象 





文件 是 不 存在 的 。 因 此 ，make 
执行 它 的 规则 里 的 命令 行 。 


如 果 在 我 们 的 makefile 























all : execl exec2 




















-三 
总 是 会 


其 中 execl 和 exec2 是 我 们 做 为 目的 的 两 个 可 执行 文件 。 


目的 ， 每 次 执行 时 都 会 尝试 把 al 更新。 但 既然 这 行规 则 里 没有 哪个 命令 来 作 








目的 跟 一 个 正常 的 











几乎 是 一 样 的 ， 只 是 这 个 目的 





目的 























始 处 输入 : 

















的 实际 文件 (事实 上 all } 











可 既然 这 个 文件 并 不 存在 ,所 以 make 会 尝试 更 新 all 规则 , 因 上 出 
是 否 需要 更 新 ， 如 果 需 要 ， 就 把 它们 更 新 ， 从 而 达到 我 们 的 目 





























假象 目的 也 可 以 用 来 
你 可 以 在 makefile 


述 




















潜 
7 
~ 





Veryclean : 
rm *.0 
rm myprog 


前 提 是 没有 其 它 














不 会 在 位 碟 上 实际 产生 )， 所 以 这 个 规则 3 

















自 设 它 需 要 被 生成 ， 当 把 它 的 依赖 文件 更 新 后 ， 就 会 





故 为 它 的 主要 
在 一 个 Hl'alh 
不 真 的 改变 'all 的 状态 。 


就 检查 它 的 依靠 execl, exec2 


make 把 这 个 'all' 


















































的 。 











组 非 预 设 的 动作 。 例 如 ， 你 想 


设立 这 样 一 个 规则 : 


的 规则 依靠 这 个 "veryclean' 目的 ， 它 将 永远 不 会 被 执行 。 


把 所 有 由 make 产生 的 文件 删 





但 是 ， 如 果 你 
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明确 的 使 用 命令 make veryclean', make 会 把 这 个 目的 做 为 它 的 主要 目标 , 执行 那些 rm 命令 。 

如 果 你 的 磁 矶 上 存在 一 个 叫 veryclean 文件 ， 会 发 生 什 么 事 ? 这 时 因为 在 这 个 规则 里 没 
有 任何 依靠 文件 , 所 以 这 个 目的 文件 一 定 是 最 新 的 了 (所 有 的 依靠 文件 都 已 经 是 最 新 的 了 )， 
所 以 既 使 用 户 明确 命令 make 重新 产生 它 ， 也 不 会 有 任何 事情 发 生 。 解 决 方法 是 标明 所 有 的 
假象 目的 〈 用 .PHONY )， 这 就 告诉 make 不 用 检查 它们 是 否 存在 于 磁 矶 上 ， 也 不 用 查找 任何 
隐 含 规则 , 直接 假设 指定 的 目的 需要 被 更 新 。 在 makefile 里 加 入 下 面 这 行 包含 上 面 规则 的 规 


则 : 



























































































































































.PHONY : veryclean 








就 可 以 了 。 注 意 ， 这 是 一 个 特殊 的 make 规则 ，make 知道 .PHONY 是 一 个 特殊 目的 ， 当 

然 你 可 以 在 它 的 依靠 里 加 入 你 想 用 的 任何 假象 目的 ， 而 make 知道 它们 都 是 假象 目的 。 
2.6 函数 (Functions) 
的 函数 跟 它 的 变量 很 相似 一 一 使 用 的 时 候 ， 你 用 一 个 $ 符 号 跟 开 括号 ， 函 数 
名 ， 空 格 后 跟 一 列 由 逗号 分 隔 的 参数 ， 最 后 用 关 插 号 结束 。 例 如 ， 在 GNU Make 里 有 一 个 
MU'wildcard' 的 函 数 ， 它 有 一 个 参数 ， 功 能 是 展开 成 一 列 所 有 符合 由 其 参数 描述 的 文件 名 ， 
文件 间 以 空格 间隔 。 你 可 以 像 下 面 所 示 使 用 这 个 命令 : 

SOURCES = $(wildcard *.c) 

这 行 会 产生 一 个 所 有 以 '.c' 结 尾 的 文件 的 列表 ， 然 后 存 入 变量 SOURCES 
需要 一 定 要 把 结果 存 入 一 个 变量 。 

另 一 个 有 用 的 函数 是 patsubst (patten substitude， 匹 配 替 换 的 缩写 ) 函数 。 它 需要 3 个 
参数 一 -第 一 个 是 一 个 需要 匹配 的 式样 ， 第 二 个 表示 用 什么 来 替换 它 ， 第 三 个 是 一 个 需要 被 
处 理 的 由 空格 分 隔 的 字 列 。 例 如 ， 处 理 那 个 经 过 上 面 定义 后 的 变量 ， 

OBJS = $(patsubst %.c,%.0,$(SOURCES)) 

这 行将 处 理 所 有 在 SOURCES 字 列 中 的 字 (一 列 文件 名 )， 如 果 它 的 结尾 是 '.c'"， 就 用 '.o' 
把 .c' 取 代 。 注 意 这 里 的 % 符 号 将 匹配 一 个 或 多 个 字符 ， 而 它 每 次 所 匹配 的 字 串 叫做 一 个 
‘ 柄 ’(stem)。 在 第 二 个 参数 里 ，% 被 解读 成 用 第 一 参数 所 匹配 的 那个 柄 。 

2.7 一 个 比较 有 效 的 makefile 

利用 我 们 现在 所 学 的 ， 我 们 可 以 建立 一 个 相当 有 效 的 makefile。 这 个 makefile 可 以 完成 
大 部 分 我 们 需要 的 依靠 检查 ， 不 用 做 太 大 的 改变 就 可 直接 用 在 大 多 数 的 项 目 

首先 我 们 需要 一 个 基本 的 makefile 来 建 我 们 的 程序 。 我 们 可 以 让 它 搜索 当前 目录 , 找到 
源码 文件 ， 并 且 假 设 它们 都 是 属于 我 们 的 项 目的 ， 放 进 一 个 叫 SOURCES 的 变量 。 这 里 如 果 













































































makefile 
































由 地 

















> 
Ky 





























。 当 然 你 不 
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也 包含 所 有 的 *.cc 文件 ， 也 许 会 更 保险 ， 因 为 源码 文件 可 能 是 C++ 码 的 。 

SOURCES = $(wildcard *.c *.cc) 

利用 patsubst, 我 们 可 以 由 源码 文件 名 产生 目标 文件 名 ,我 们 需 要 编译 出 这 些 目标 文件 。 
如 果 我 们 的 源码 文件 既 有 .c 文件 ， 也 有 .cc 文件 ， 我 们 需要 使 用 相 谍 的 patsubst 函数 呼叫 ; 

OBJS = $(patsubst %.c,%.0,$(patsubst %.ce,%.0,$(SOURCES))) 

最 里 面 一 层 patsubst 的 呼叫 会 对 .cc 文件 进行 后 级 禁 代 ， 产 生 的 结果 被 外 层 的 patsubst 
呼叫 处 理 ， 进 行 对 .c 文件 后 绥 的 替代 。 

现在 我 们 可 以 设立 一 个 规则 来 建 可 执行 文件 : 





































































































myprog : $(OBJS) 


gcc -0 myprog $(OBJS) 























进一步 的 规则 不 一 定 需要 ，gcc 已 经 知道 怎么 去 生成 目标 文件 (object files)。 下 面 我 们 可 


以 设 定 产 生 依靠 信息 的 规则 : 








depends : $(SOURCES) 
gcc -M $(SOURCES) > depends 
在 这 里 如 果 一 个 叫 'depends' 的 文件 不 存在 ,或 任何 一 个 源码 文件 比 一 个 已 存在 的 depends 
文件 新 ， 那 么 一 个 depends 文件 会 被 生成 。depends 文件 将 会 含有 由 gcc 产生 的 关于 源码 文 
件 的 规则 (注意 -M 开关 )。 现 在 我 们 要 让 make 把 这 些 规则 当做 makefile 档 的 一 部 分 。 这 
使 用 的 技巧 很 像 C 语言 中 的 ##include 系统 


makefile 里 ， 如 下 : 




































































我 们 要 求 make 把 这 个 文件 include 到 

















include depends 
GNU Make 看 到 这 个 ， 检 查 'depends' 目 的 是 否 更 新 了 ， 如 果 没 有 ， 它 用 我 们 给 它 的 命令 
重新 产生 depends 档 。 然 后 它 会 把 这 组 〈 新 ) 规则 包含 进来 ， 继 续 处 理 最 终 目标 myprog'。 
当 看 到 有 关 myprog 的 规则 , 它 会 检查 所 有 的 目标 文件 是 否 更 新 一 一 利用 depends 文件 里 的 
规则 ， 当 然 这 些 规则 现在 已 经 是 更 新 过 的 了 。 
这 个 系统 其 实效 率 很 低 ， 因 为 每 当 一 个 源码 文件 被 改动 , 所 有 的 源码 文件 都 要 被 预 处 理 
以 产生 一 个 新 的 'depends' 文 件 。 而 且 它 也 不 是 100% 的 安全 ， 这 是 因为 当 一 个 header 档 被 改 
动 ， 依 靠 信 息 并 不 会 被 更 新 。 但 就 基本 工作 来 说 ， 它 也 算 相当 有 用 的 了 。 
2.8 一 个 更 好 的 makefile 
这 是 一 个 我 为 我 大 多 数 项 目 设计 的 makefile。 它 应 该 可 以 不 需要 修改 的 用 在 大 部 分 项 目 
。 我 主要 把 它 用 在 djgpp 上 ， 那 是 一 个 DOS 版 的 gce 编译 器 。 因 此 你 可 以 看 到 执行 的 命 
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令 名 、'alleg' 程 序 包 、 和 RM -F 变量 都 反映 了 这 一 点 。 
=== makefile 开始 === 


天 开 开 开拓 放 瑚 搬 瑚 天 振 天天 瑚 天 玫 天 搬 瑚 生 和 请 
# 

# Generic makefile 

# 

# by George Foot 





# email: george.foot@merton.ox.ac.uk 
# 

# Copyright (c) 1997 George Foot 
# All rights reserved. 

# 

# No warranty, no liability; 

# you use this at your own risk. 

# 没 保险 ， 不 负责 

# 你 要 用 这 个 ， 你 自己 担 风险 
# 

# You are free to modify and 

# distribute this without giving 




















# credit to the original author. 

# 你 可 以 随便 更 改 和 散发 这 个 文件 

# 而 不 需要 给 原作 者 什么 荣誉 。 

# 《你 好 意思 ? ) 

# 

天 并 并 并 样 寿 样 帮 并 并 并 样 在 寿 并 才 帮 闪闪 在 寿 并 才 并 ## 寿 寿 并 才 才 并 ## 酝 相 并 帮 

### Customising 

# 用 户 设 定 

# 

# Adjust the following if necessary; EXECUTABLE is the target 
# executable's filename, and LIBS is a list of libraries to link in 

















# (e.g. alleg, stdcx, iostr, etc). You can override these on make's 

# command line of course, if you prefer to do it that way. 

# 

# 如 果 需 要 ， 调 整 下 面 的 东西 。EXECUTABLE 是 目标 的 可 执行 文件 名 ，LIBS 
# 是 一 个 需要 连接 的 程序 包 列 表 《〈 例 如 alleg, stdcx, iostr 等 等 )。 当 然 你 

# 可 以 在 make 的 命令 行 履 盖 它 们 ， 你 愿意 就 没 问 题 。 

# 









































EXECUTABLE := mushroom.exe 
LIBS := alleg 


# Now alter any implicit rules' variables if you like, e.g.: 
并 
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互 





# 现在 来 改变 任何 你 想 改动 的 隐 含 规则 中 的 变量 ， 例 如 


CFLAGS := -g -Wall -O3 -m486 
CXXFLAGS := $(CFLAGS) 


# The next bit checks to see whether rm is in your djgpp bin 

# directory; if not it uses del instead, but this can cause (harmless) 

# ‘File not found' error messages. If you are not using DOS at all, 

# set the variable to something which will unquestioningly remove 

# files. 

# 

# 下 面 先 检查 你 的 djgpp 命令 目录 下 有 没有 rm 命令 ， 如 果 没 有 ， 我 们 使 用 
# del 命令 来 代替 ， 但 有 可 能 给 我 们 'File not found' 这 个 错误 信息 ， 这 没 

# 什么 大 碍 。 如 果 你 不 是 用 DOS ， 把 它 设 定 成 一 个 删 文件 而 不 废话 的 命令 。 
# (其 实 这 一 步 在 UNIX 类 的 系统 上 是 多 余 的 ， 只 是 方便 DOS 用 户 。UNIX 
# 用 户 可 以 删除 这 5 行 命令 。) 


> 























三 












































ifneq ($(wildcard $(DJDIR)/bin/rm.exe),) 


RM-F :=rm-f 
else 

RM-F := del 
endif 


# You shouldn't need to change anything below this point. 
# 
# 从 这 里 开始 ， 你 应 该 不 需要 改动 任何 东西 。 





SOURCE := $(wildcard *.c) $(wildcard *.cc) 

OB]JS := $(patsubst %.c,%.0,$(patsubst %.cc,%.0,$(SOURCE))) 

DEPS := $(patsubst %.0,%.d,$(OBJS)) 

MISSING DEPS := $(filter-out $(wildcard $(DEPS)),$(DEPS)) 
MISSING DEPS SOURCES := $(wildcard $(patsubst %.d,%.c,$(MISSING DEPS))\ 
$(patsubst %.d,%.cc,$(MISSING DEPS))) 

CPPFLAGS += -MD 


.PHONY : everything deps objs clean veryclean rebuild 


everything : $(EXECUTABLE) 


deps : $(DEPS) 


objs : $(OBJS) 


clean : 
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她 
= 





@$RM-F) *.o 
@$RMF) *.d 


veryclean: clean 
@$(RM-F) $(EXECUTABLE) 


rebuild: veryclean everything 


ifneq ($(MISSING DEPS),) 
$(MISSING DEPS) : 

@$ RM-F) $(patsubst %.d,%.0,$@) 
endif 


-include $(DEPS) 


$(EXECUTABLE) : $(OBJS) 
gcc -0 $(EXECUTABLE) $(OBJS) $(addprefix -1,$(LIBS)) 


===makefile 结束 一 = 

有 几 个 地 方 值得 解释 一 下 的 。 首 先 ， 我 在 定义 大 部 分 变量 的 时 候 使 用 的 是 := 而 不 是 = 
它 的 作用 是 立即 把 定义 中 参考 到 的 函数 和 变量 都 展开 了 。 如 果 使 用 = 的 话 ， 函 数 和 变 

量 参考 会 留 在 那儿 ， 就 是 说 改变 一 个 变量 的 值 会 导致 其 它 变量 的 值 也 被 改变 。 例 如 : 


A=foo 


































































































B= $(A) 
# 现在 B 是 $(A) ， 而 $(A) 是 'foo' 。 


A= bar 





# 现在 B 仍然 是 $(A) ， 但 它 的 值 已 随 着 变 成 'bar' 了 。 
B := $(A) 
# 现在 B 的 值 是 "bar 。 


A= foo 








#B 的 值 仍 然 是 "bar 。 

make 会 忽略 在 # 符号 后 面 直到 那 一 行 结束 的 所 有 文字 。 

ifneg...else...endif 系统 是 makefile 里 让 某 一 部 分 码 有 条 件 的 失效 / 有 效 的 工具 。ifeq 使 
用 两 个 参数 ， 如 果 它 们 相同 ， 它 把 直到 else (或 者 endif， 如 果 没 有 else 的 话 ) 的 一 段 码 加 
; 如 果 不 同 ， 把 else 到 endif 间 的 一 段 码 加 入 makefile (如果 有 else)。ifneq 
的 用 法 刚好 相反 。 












































进 makefile 
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项 目 删除 。 我 用 它 来 处 到 


类 似 -M 


DEPS 变量 的 步骤 )。DEPS 里 提 到 的 文件 后 来 用 '-include' 加 进 了 makefile 
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简介 


Se 























'filter-out' 函 数 使 用 两 个 用 空格 分 开 的 列表 , 它 把 第 二 列表 中 所 有 的 存在 于 第 一 列表 中 的 



































EE DEPS 列表 , 把 所 有 已 经 存在 的 项 目 都 删除 , 而 只 保留 缺少 的 那些 。 
































我 前 面 说 过 ，CPPFLAGS 存 有 用 于 隐 含 规则 中 传 给 预 处 理 器 的 一 些 旗 标 。 而 -MD 开关 
































文件 和 一 个 '.o' 文件 。 


deps: 只 是 为 每 一 个 源码 程序 产生 或 更 新 一 个 '.d' 文 件 。 


因 文 件 不 存在 而 产生 的 错误 信息 。 
如 果 任 何 依靠 文件 不 存在 ，makefile 会 把 相应 的 .o 文件 从 磁 矶 上 删除 ， 从 而 使 得 make 














重建 它 。 因 为 CPPFLAGS 指定 了 -MD， 

















关 , 但 是 从 源码 文件 .c 或 .cc 中 形成 的 文件 名 是 使 用 后 绥 .d 的 (这 就 解释 了 我 形成 








， 它 隐藏 了 所 有 

















它 的 .d 文件 也 被 重新 产生 。 








最 后 ，'addprefix' 函 数 把 第 二 个 参数 列表 的 每 一 项 前 组 上 第 一 个 参数 值 。 








这 个 makefile 的 那些 目的 是 (这 些 








目的 可 以 传 给 make 的 命令 行 来 直接 选用 ): 


















































everything:〔( 预 设 ) 更 新 主要 的 可 执行 程序 ， 并 且 为 每 一 个 源码 文件 生成 或 更 新 一 个 '.d 


























objs: 为 每 一 个 源码 程序 生成 或 更 新 '.d' 文 件 和 目标 文件 。 
clean: 删除 所 有 中 介 / 依靠 文件 (*.d 和 *.0)。 
veryclean: 做 "clean' 和 删除 可 执行 文件 。 























rebuild: 先 做 `veryclean' 然 后 "everything';， 既 完全 重建 。 














除了 预 设 的 everything 以 外 ， 这 里 头 只 有 clean，veryclean， 和 rebuild 对 用 户 是 有 意义 


我 还 没有 发 现 当 给 出 一 个 源码 文件 的 目录 , 这 个 makefile 会 失败 的 情况 ,除非 依靠 文件 
被 弄 乱 。 如 果 这 种 弄 乱 的 情况 发 生 了 ， 只 要 输入 "make clean' ， 所 有 的 目标 文件 和 依靠 文件 



























































会 被 删除 ， 问 题 就 应 该 被 解决 了 。 当 然 ， 最 好 不 要 把 它们 弄 乱 。 
3 总 结 


希望 这 篇 文章 足够 详细 的 解释 了 多 文件 项 目 是 怎么 运作 的 , 也 说 明了 怎样 安全 而 合理 的 





使 月 


























昌 它 。 到 此 ， 你 应 该 可 以 轻松 的 利 

















] GNU Make 工具 来 管理 小 型 的 项 目 ， 如 果 你 完全 理 

















解 了 后 面 儿 个 部 分 的 话 ， 这 些 对 于 你 来 说 应 该 没什么 困难 。 














GNU Make 是 一 件 强大 的 工具 ， 虽 然 它 主要 是 用 来 建立 程序 ， 它 还 有 很 多 别 的 用 处 。 








如 果 想 要 知道 更 多 有 关 这 个 工具 的 知识 ， 它 的 句法 ， 函数， 和 许多 别 的 特点 ， 你 应 该 参看 它 























的 参考 文件 (info pages， 别 的 GNU 工具 也 一 样 ， 看 它们 的 info pages.)。 
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